Die o-Serie von OpenAI wird um zwei neue Modelle erweitert: o3 und o4-mini. Zwei visuelle Reasoning-Modelle. Ja, die beiden Modelle sind neu, nicht zu verwechseln mit 4o und 4o-mini oder o3-mini. Letztgenanntes ist bereits verfügbar. o3 hatte OpenAI-CEO Sam Altman schon im Dezember angekündigt. Immerhin hat er auch angekündigt, den Modellen künftig bessere Namen geben zu wollen.
Das Besondere an der o-Serie: Sie soll besonders intelligent sein. Die neuen Modelle können auf eine ganze Palette Werkzeuge zugreifen. Dazu gehört laut Blogbeitrag von OpenAI das Browsen im Web, Python, Bildgenerierung sowie Bild- und Dateianalyse, Canvas, die Suche durch Dateien und die Memory-Funktion. Zudem seien die Modelle besonders gut darin, komplexe mathematische Probleme zu lösen, im Coden und bei wissenschaftlichen Aufgaben – samt visueller Stärke. Dabei entscheiden die Modelle selbst, wann sie welche Fähigkeiten benötigen. Das sei ein weiterer wichtiger Schritt in Richtung autonomes Handeln einer KI.
Wie bekannt werden die o-Modelle mittels Reinforcement Learnings über Chains of Thoughts trainiert. Gemeint sind Gedankenketten, in denen immer wieder Bestätigung für richtige Entscheidungen gesucht wird. Laut OpenAI können die Modelle dadurch nun auch noch besser über die eigenen Sicherheitsrichtlinien nachdenken, was sie besonders robust macht. Sie könnten beispielsweise Angriffsszenarien verstehen und abblocken. In einer Evaluierung des Sicherheitsteams von OpenAI, dem Prepardeness Framework in einer aktualisierten Version, haben o3 und o4-mini besonders gut abgeschnitten. In keiner von drei Kategorien (Biologische und chemische Fähigkeiten, Cybersicherheit und KI-Selbstverbesserung) sei das Sicherheitsrisiko als hoch eingestuft worden, sagt OpenAI. OpenAI hat auch verschiedene Benchmarks veröffentlicht.
Mehr Leistung und bessere Bildverarbeitung
Zudem beschreibt OpenAI, wie "mehr Rechenleistung bessere Leistung" hervorbringe. "Indem wir den Skalierungspfad – diesmal in RL – zurückverfolgt haben, haben wir sowohl die Trainingsberechnung als auch die Inferenzzeit um eine weitere Größenordnung gesteigert und dennoch deutliche Leistungssteigerungen gesehen." Dies bestätige, dass die Leistung der Modelle sich weiter verbessert, je mehr sie denken dürfen. Dabei sind die neuen Modelle kosteneffizienter als ihre Vorgänger.
In einem separaten Blogbeitrag erklärt OpenAI zudem, wie o3 und o4-mini "mit Bildern denken können". Das heißt: "Sie sehen Bilder nicht nur, sondern können visuelle Informationen direkt in ihre Argumentationskette integrieren." Dazu gehört beispielsweise auch, dass die Modelle selbstständig Bilder drehen können oder in diese hineinzoomen und diese Schritte im "Denkprozess" verarbeiten.
OpenAI o3, o4-mini und o4-mini-high sind für Plus-, Pro- und Team-User von nun an verfügbar. Sie ersetzen o1, o3-mini und o3-mini-high. Sie sind auch über die API nutzbar (Chat Completions + Responses API).
(emw)