Neue Aufgaben für Siri

Will Apple Apps mit KI fernsteuern?

Apple  soll an einem KI-System namens Ferret-UI arbeiten, mit denen App-Oberflächen analysiert und bedient werden können. Das wäre eine tolle Sache für Siri.

Von   Uhr
2 Minuten Lesezeit

Laut einem kürzlich veröffentlichten Forschungsbericht hat Apple ein generatives KI-System entwickelt, um App-Bildschirme zu verstehen. Das könnte den Weg für ein fortschrittlicheres Siri ebnen.

Die Herausforderungen, vor denen aktuelle KI-Systeme wie Large Language Models (LLMs) und Multimodal Large Language Models (MLLMs) stehen, wenn es darum geht, die Ausgaben mobiler Apps zu verstehen, stellen eine große Hürde dar. Diese Probleme reichen von unterschiedlichen Smartphone-Seitenverhältnissen bis hin zur geringen Größe von Icons und Schaltflächen, die erkannt werden müssen.

Ferret-UI: Ein Game-Changer in der App-Interaktion

Die Forscher von Apple glauben, mit Ferret-UI eine Lösung für diese Probleme gefunden zu haben. Das System nutzt die "Any Resolution"-Technologie zur Vergrößerung von Details und zur Nutzung erweiterter visueller Funktionen, wodurch es besser geeignet ist, die länglichen Seitenverhältnisse und kleineren Objekte zu verstehen, die typischerweise in App-Bildschirmen zu finden sind.

Die Forscher haben akribisch Trainingsbeispiele aus einem breiten Spektrum elementarer UI-Aufgaben gesammelt, z. B. Icon-Erkennung, Textsuche und Widget-Auflistung. Diese Beispiele sind so formatiert, dass sie den Anweisungen folgen können, und enthalten Anmerkungen zu den einzelnen Bereichen, was eine präzise Zuordnung und Erdung ermöglicht. Um die Argumentationsfähigkeit des Modells weiter zu verbessern, haben sie auch einen Datensatz für fortgeschrittene Aufgaben zusammengestellt, einschließlich detaillierter Beschreibungen, Wahrnehmungs-/Interaktionsgespräche und Funktionsinferenz.

Die potenziellen Anwendungen von Ferret-UI reichen von der Entwicklung von Benutzeroberflächen bis hin zu barrierefreien Funktionen und, was am spannendsten ist, einer hochentwickelten Siri. Entwickler könnten das System nutzen, um die Effektivität der Benutzeroberfläche ihrer Anwendungen zu bewerten, während Nutzer mit Sehbehinderungen ebenfalls profitieren könnten.

Mehr zu diesen Themen:

Diskutiere mit!

Hier kannst du den Artikel "Will Apple Apps mit KI fernsteuern?" kommentieren. Melde dich einfach mit deinem maclife.de-Account an oder fülle die unten stehenden Felder aus.

Die Kommentare für diesen Artikel sind geschlossen.