Google hat mit ScreenAI ein neues KI-Modell vorgestellt, das die Interaktion mit Bildschirminhalten revolutionieren könnte. ScreenAI kombiniert visuelle und sprachliche Verarbeitung, um Benutzeroberflächen (UIs) und Infografiken zu verstehen, zu analysieren und mit ihnen zu interagieren. Die Technologie ermöglicht es, UI-Elemente zu identifizieren, ihre Funktion zu erklären und sogar Anweisungen wie “Klicke auf den Suchbutton” auszuführen. Besonders beeindruckend ist die Fähigkeit, den Inhalt eines Bildschirms zusammenzufassen oder Fragen zu spezifischen Elementen zu beantworten.

Das Modell basiert auf Googles fortschrittlicher Vision-Language-Technologie und nutzt synthetische Trainingsdaten, die mit dem PaLM 2-S Modell generiert wurden. ScreenAI wurde in verschiedenen Benchmarks getestet und übertrifft dabei viele bestehende Modelle, auch solche mit größerer Parameteranzahl. Die potenziellen Anwendungsbereiche sind vielfältig: von der Unterstützung sehbehinderter Nutzer durch detaillierte Beschreibungen von Interfaces bis hin zu automatisierten Tests von Benutzeroberflächen. Auch Sprachassistenten könnten durch ScreenAI in der Lage sein, besser mit dargestellten Inhalten zu interagieren.

Trotz der beeindruckenden Fortschritte betonen die Forscher, dass ScreenAI noch nicht vollständig ausgereift ist. Insbesondere die praktische Umsetzung der generierten Aktionen steht noch aus. Dennoch zeigt die Entwicklung, wie KI zunehmend in der Lage ist, komplexe visuelle und sprachliche Aufgaben zu bewältigen und so den Alltag der Nutzer zu erleichtern.

Quellen