FastVLM: Apples neue Bild-zu-Text-KI soll deutlich schneller sein

vor 9 Stunden 1

Als sich im Frühjahr 2024 die Apple Intelligence andeutete, waren die Forschungsveröffentlichungen von Apple-Ingenieuren erste Vorboten. In der Rückschau zeichnete sich bereits damals ab, welche Schwerpunkte Apple bei seinen eigenen KI-Modellen setzt, darunter die Eignung, einige Modelle lokal auf iPhone und Co. zu betreiben. Sollte sich das dieses Jahr wiederholen, ist für die KI-Funktionen des iPhone-Herstellers ein deutlich besseres Modell zu erwarten, das lokal auf dem Gerät Bilder erkennen und verarbeiten kann. Einem jetzt veröffentlichten Forschungspapier über FastVLM (Fast Vision Language Models) sind erste Details hierzu zu entnehmen.

FastVLM soll sich vor allem durch eine höhere Geschwindigkeit auszeichnen, heißt es in dem Papier. Auch im Machine Learning Research Blog Apples wird darüber berichtet. Die Variante FastVLM-0.5B sei 85 Mal schneller als LLaVA-OneVision, die 7B-Variante immerhin 7,9 Mal so schnell wie Cambrian-1-8B bei vergleichbarer Genauigkeit. Hinzu komme, dass das Modell dabei sehr klein sei und lokal auf Apple-Geräten betrieben werden könne, wodurch Nutzer von der Cloud unabhängig blieben und das Modell hohen Datenschutzstandards genüge. Damit passt es gut zu den bisherigen Schwerpunkten der Apple Intelligence.

Neuer Encoder für hochauflösende Bilder

Grundlage für die schnellere Bildverarbeitung sei der neue FastViTHD Vision Encoder, der hochauflösende Bilder effizienter verarbeite als andere Modelle. Eine vorherige Verkleinerung entfalle. Der Encoder produziere dennoch deutlich weniger visuelle Tokens. Für das Modell seien zudem weniger Trainingsdaten nötig gewesen.

Die schnelle Verarbeitung bedeutet für Nutzer, dass mit dem Modell Textbeschreibungen von Bildern deutlich schneller erstellt werden können und bisherige Wartezeiten entfallen. Mögliche Einsatzzwecke liegen auch in der Dokumentenanalyse (OCR), im Bereich der Barrierefreiheitsfunktionen und bei der visuellen Suche in Foto-Bibliotheken.

Beispiele für den Einsatz

In drei Beispielen zeigen die Apple-Forscher, was das Modell kann und wie schnell es dabei funktioniert. So wird in einem Testfall die Zahl der Finger gezählt, die eine Hand in einem Video zeigt. In einem anderen Beispiel wird schnell durch einen Block geblättert und die darin enthaltenen handschriftlichen Notizen werden in Echtzeit erkannt. Im dritten Beispiel beschreibt die KI ein Emoji, das ihr gezeigt wird.

Bilderkennung hat Apple bereits jetzt an diversen Stellen im Betriebssystem und in Apps im Einsatz. Dazu zählen die Visual Intelligence zur Objekterkennung oder die visuelle Suche in der Fotos-App. Mit dem neuen Modell dürften diese Funktionen schneller und besser funktionieren. Zudem sind weitere Anwendungen denkbar, etwa eine zusätzliche Bildbeschreibung in der Mail-App oder ein Assistent in der Kamera-App.

Entwicklerkonferenz im Juni

Ob es das neue Modell schon in iOS 19 schafft, wird sich am 9. Juni zeigen, wenn Apple auf einer Keynote zur Eröffnung der Entwicklerkonferenz WWDC iOS 19 und die weiteren neuen Versionen der Betriebssysteme vorstellt.

(mki)

Gesamten Artikel lesen