OpenAI stellt GPT-5.5 vor: Mehr Agent, weniger Chatbot

vor 3 Stunden 1

Ist denn schon wieder Donnerstag? OpenAI hat sein nächstes Sprachmodell vorgestellt: GPT-5.5 versteht sich weniger als Chatbot und stärker als eigenständig arbeitender KI-Agent. Wie das Unternehmen mitteilt, soll das Modell Aufgaben selbstständig planen, Werkzeuge nutzen, Zwischenergebnisse prüfen und über längere Zeiträume konsistent arbeiten. GPT-5.5 löst damit den erst Anfang März erschienenen Vorgänger GPT-5.4 als Flaggschiff-Modell ab.

Die Schwerpunkte liegen auf Softwareentwicklung, Recherche, Datenanalyse und Bedienung von Software über Schnittstellen hinweg. Trotz höherer Leistungsfähigkeit soll die Antwortgeschwindigkeit pro Token identisch mit GPT-5.4 bleiben, heißt es im OpenAI-Blog. OpenAI nennt als Grund Optimierungen in der gesamten Infrastruktur, darunter KI-gestützte Lastverteilung – technische Details zur konkreten Umsetzung bleibt das Unternehmen allerdings schuldig. Zudem soll GPT-5.5 für dieselben Aufgaben deutlich weniger Tokens verbrauchen als sein Vorgänger.

Besonders stark präsentiert sich das Modell laut OpenAI beim sogenannten agentischen Coding, also der eigenständigen Bearbeitung komplexer Entwicklungsaufgaben inklusive Planung, Debugging und Tool-Nutzung. Auf der Ankündigungsseite für GPT-5.5 zeigt OpenAI mehrere Ergebnisse, etwa einen Erdbebentracker, zwei einfache 3D-Spiele und eine interaktive Visualisierung einer Mondmission:

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Inhalt geladen.

Auf Terminal-Bench 2.0, einem Benchmark für mehrstufige Kommandozeilen-Workflows, erreicht GPT-5.5 eine Genauigkeit von 82,7 Prozent. Damit liegt es vor Claude Opus 4.7 (69,4 Prozent) und Gemini 3.1 Pro (68,5 Prozent). Auf dem Artificial Analysis Coding Index soll GPT-5.5 die gleiche Leistung wie Konkurrenzmodelle zu den halben Kosten liefern.

Dankenswerterweise listet OpenAI alle Benchmarks mit Vergleich zu den hauseigenen Vorgängern sowie Opus 4.7 und Gemini 3.1 Pro übersichtlich in einer Tabelle auf.

(Bild: OpenAI)

Auch bei der Desktop-Steuerung über Screenshots – OpenAI spricht von „Computer Use“ – zeigt sich ein Fortschritt: Im Benchmark OSWorld-Verified kommt GPT-5.5 auf 78,7 Prozent und liegt damit knapp vor Claude Opus 4.7 mit 78,0 Prozent. Anthropic hat sein jüngstes Modell Opus 4.7 erst eine Woche vor GPT-5.5 freigegeben und dabei vorwiegend die verbesserte Anweisungsbefolgung betont.

Bei genauerem Blick auf die von OpenAI veröffentlichten Leistungsdaten fällt auf, dass die Vergleichbarkeit eingeschränkt ist. Mehrere Benchmarks enthalten keine Werte für Konkurrenzmodelle. Beim internen Expert-SWE etwa tritt GPT-5.5 ausschließlich gegen den eigenen Vorgänger an – externe Referenzwerte fehlen komplett. Auch bei Toolathlon und CyberGym sind die Tabellen lückenhaft.

Wo externe Modelle einbezogen werden, ergibt sich ein differenzierteres Bild. Beim Wissensarbeits-Benchmark GDPval erreicht GPT-5.5 mit 84,9 Prozent zwar den Spitzenwert, liegt aber nur knapp vor GPT-5.4 (83,0 Prozent) und Claude Opus 4.7 (80,3 Prozent). Bei BrowseComp, einem Test für mehrstufige Web-Recherche, überholt Gemini 3.1 Pro mit 85,9 Prozent sogar das Basismodell GPT-5.5 (84,4 Prozent) – erst die Pro-Variante zieht mit 90,1 Prozent davon. Für eine belastbare Einordnung der tatsächlichen Leistung bleiben unabhängige Tests abzuwarten.

GPT-5.5 reiht sich in eine Serie schneller Veröffentlichungen ein, mit der OpenAI zuletzt das Modellangebot ausdifferenziert hat. Erst vergangene Woche stellte das Unternehmen ein verbessertes Bildmodell mit Thinking-Modus vor. Wenige Tage zuvor war GPT-Rosalind erschienen, ein auf Biologieforschung spezialisiertes Modell. Und bereits Mitte April hat OpenAI mit GPT-5.4-Cyber eine Variante mit gelockerten Sicherheitsbeschränkungen für verifizierte Sicherheitsforscher angekündigt.

Beim Thema Sicherheit betont OpenAI für GPT-5.5 die bisher umfangreichsten Schutzmaßnahmen. Vor dem Release habe es gezielt erweiterte Cybersecurity- und Biologie-Fähigkeiten getestet, internes und externes Redteaming durchgeführt sowie Feedback von rund 200 Early-Access-Partnern eingeholt. Ausgewählte Nutzer erhalten über ein „Trusted Access“-Programm erweiterten Zugriff auf sicherheitsrelevante Funktionen – ein Konzept, das OpenAI bereits bei GPT-5.4-Cyber etabliert hatte.

GPT-5.5 steht zunächst für Plus-, Pro-, Business- und Enterprise-Nutzer in ChatGPT und Codex zur Verfügung. Die Pro-Variante GPT-5.5 Pro ist auf Pro-, Business- und Enterprise-Konten beschränkt. Eine allgemeine API-Freigabe hat OpenAI angekündigt, aber dafür noch keinen Termin genannt. Zur Preisgestaltung in Europa und zur DSGVO-Konformität äußert sich das Unternehmen bislang nicht.

(vza)

Gesamten Artikel lesen