Laut einem kürzlich veröffentlichten Forschungsbericht hat Apple ein generatives KI-System entwickelt, um App-Bildschirme zu verstehen. Das könnte den Weg für ein fortschrittlicheres Siri ebnen.
Die Herausforderungen, vor denen aktuelle KI-Systeme wie Large Language Models (LLMs) und Multimodal Large Language Models (MLLMs) stehen, wenn es darum geht, die Ausgaben mobiler Apps zu verstehen, stellen eine große Hürde dar. Diese Probleme reichen von unterschiedlichen Smartphone-Seitenverhältnissen bis hin zur geringen Größe von Icons und Schaltflächen, die erkannt werden müssen.
Ferret-UI: Ein Game-Changer in der App-Interaktion
Die Forscher von Apple glauben, mit Ferret-UI eine Lösung für diese Probleme gefunden zu haben. Das System nutzt die "Any Resolution"-Technologie zur Vergrößerung von Details und zur Nutzung erweiterter visueller Funktionen, wodurch es besser geeignet ist, die länglichen Seitenverhältnisse und kleineren Objekte zu verstehen, die typischerweise in App-Bildschirmen zu finden sind.
Die Forscher haben akribisch Trainingsbeispiele aus einem breiten Spektrum elementarer UI-Aufgaben gesammelt, z. B. Icon-Erkennung, Textsuche und Widget-Auflistung. Diese Beispiele sind so formatiert, dass sie den Anweisungen folgen können, und enthalten Anmerkungen zu den einzelnen Bereichen, was eine präzise Zuordnung und Erdung ermöglicht. Um die Argumentationsfähigkeit des Modells weiter zu verbessern, haben sie auch einen Datensatz für fortgeschrittene Aufgaben zusammengestellt, einschließlich detaillierter Beschreibungen, Wahrnehmungs-/Interaktionsgespräche und Funktionsinferenz.
Die potenziellen Anwendungen von Ferret-UI reichen von der Entwicklung von Benutzeroberflächen bis hin zu barrierefreien Funktionen und, was am spannendsten ist, einer hochentwickelten Siri. Entwickler könnten das System nutzen, um die Effektivität der Benutzeroberfläche ihrer Anwendungen zu bewerten, während Nutzer mit Sehbehinderungen ebenfalls profitieren könnten.
- Test: Das sind die besten Mäuse für den Mac - Spoiler: Es ist nicht die Magic Mouse
- Telefonieren mit dem Mac: Dank Gratis-App in Minutenschnelle möglich
- Ausprobiert: Chromebook statt MacBook Pro – wie gut sind die „Google-Notebooks“?
- Apple Watch SE im Test: Von der Kunst des Weglassens – wer braucht überhaupt die teurere Series 6?
Apple iPhone 15 (256 GB) - Schwarz
Diskutiere mit!
Hier kannst du den Artikel "Will Apple Apps mit KI fernsteuern?" kommentieren. Melde dich einfach mit deinem maclife.de-Account an oder fülle die unten stehenden Felder aus.
Die Kommentare für diesen Artikel sind geschlossen.