TL;DR Zusammenfassung
OpenAI hat intern einen „Code Red“ ausgerufen – einen Alarmzustand, der praktisch alle Ressourcen auf die Verbesserung von ChatGPT konzentriert.
Der Auslöser: Googles Gemini 3 eroberte die Spitze wichtiger Benchmarks und löste bei OpenAI eine Krisenstimmung aus. Doch die technischen Unterschiede zwischen den führenden KI-Modellen sind marginal – oft im einstelligen Prozentbereich.
Was wirklich zählt, ist die Wahrnehmung: Wer in der öffentlichen Meinung vorne liegt, gewinnt das Vertrauen von Kunden, Investoren und Talenten. Der Fall zeigt eindrücklich, wie der KI-Wettlauf längst nicht mehr nur im Labor entschieden wird, sondern in den Köpfen der Nutzer. Für Unternehmen bedeutet das: Die Wahl des „besten“ Modells ist weniger wichtig als die Fähigkeit, flexibel zwischen Anbietern zu wechseln und eigene Daten- und Prozesskompetenz aufzubauen.
Von wegen „Wir schauen uns das in Ruhe an“
Der Zeitpunkt war Zufall, aber perfekt. Am 18. November veröffentlichte Google sein bislang mit Abstand leistungsfähigstes Modell Gemini 3. Und einen Tag später, am 19.11.2025, hatte ich einen Termin im Headquarter von OpenAI in San Francisco.
In der Fragerunde stellte ich (noch ohne selbst zu wissen, was Gemini 3 kann) die naive Frage:
Wie schätzt ihr Googles neues Modell Gemini 3 ein – und was bedeutet das für OpenAIs weitere Pläne?
Der OpenAI-Vertreter schwieg merklich lange. Dann sagte er schließlich:
„Google hat da ein sehr gutes Modell veröffentlicht. Wir schauen uns das in Ruhe an.“
Nach außen wirkte der Satz kontrolliert, fast nüchtern. Doch nur wenige Tage später wurde klar: „in Ruhe“ ist intern vorbei. Sam Altman rief einen konzernweiten „Code Red“ aus – ein Alarmzustand, in dem praktisch alles andere zugunsten von ChatGPT und einem schnelleren Gegenangriff auf Gemini 3 angehalten wird.
Über diese Besonderheit wurde schon viel berichtet. Dieser Artikel zeichnet aber nun nach, was in den Monaten vor und den Tagen nach der Gemini 3-Veröffentlichung bei OpenAI passiert ist – auf Basis öffentlicher Aussagen, geleakter Memos, Berichten und Benchmarkdaten.
1. Vorgeschichte: Ein verpatzter GPT-5-Start und angeschlagene Stimmung
Als GPT-5 im August 2025 ausgerollt wurde, sollte es der nächste große Sprung sein. OpenAI sprach von „PhD-Level-Intelligenz“, deutlich weniger Halluzinationen und besseren Fähigkeiten quer über Mathematik, Schreiben, Gesundheit und Bildverständnis. In der öffentlichen Kommunikation wurde GPT-5 als „bestes KI-System“ des Unternehmens präsentiert.
Die Reaktion der Nutzer sah völlig anders aus.
Technikmedien sprachen davon, GPT-5 habe den „Hype-Test“ nicht bestanden. Wired und andere beschrieben, wie Nutzer in sozialen Medien massenhaft klagten, der neue ChatGPT wirke dümmer, mache seltsame Fehler und vor allem: Er fühle sich kalt und distanziert an. In Foren tauchten Kommentare auf wie:
„Sure, 5 is fine — if you dislike nuance and emotional depth.“ („Klar, 5 ist in Ordnung – wenn du Nuancen und emotionale Tiefe nicht magst.“)
oder noch deutlicher:
„It feels like GPT-4o on a bad day without the ability to choose a better version. I’m phenomenally disappointed. Cancelled my subscription.“ („Es fühlt sich an wie GPT-4o an einem schlechten Tag, ohne die Möglichkeit, eine bessere Version zu wählen. Ich bin extrem enttäuscht. Abo gekündigt.“)
Das eigentliche Problem war weniger die rohe Leistungsfähigkeit als die Persönlichkeit. Nutzer beschrieben GPT-5 als „robotisch“, „steril“ und „wie eine überarbeitete Sekretärin“. Viele hatten zuvor eine starke emotionale Bindung zu GPT-4o aufgebaut – bis hin zu Formulierungen wie, der neue Chatbot trage „die Haut ihres toten Freundes„.
Die Wucht dieser Reaktionen war so hoch, dass OpenAI innerhalb von rund 24 Stunden zurückrudern musste: Sam Altman kündigte öffentlich an, GPT-4o wieder verfügbar zu machen und an der „Persönlichkeit“ von GPT-5 zu arbeiten. In einem späteren Interview mit Fortune räumte er ein, man habe den Start „total screwed up“ („völlig vermasselt“).
Parallel analysierten Medien und Analysten die Lage:
- Bloomberg fasste die Stimmung mit „overdue, overhyped and underwhelming“ („überfällig, überhypt und enttäuschend“) zusammen.
- Ars Technica sprach von einem „großen Durcheinander“ beim Rollout, mit kaputten Workflows und frustrierten Power-Usern.
Kurz gesagt: Technisch war GPT-5 ein Fortschritt, kommunikativ und emotional wurde es als Rückschritt erlebt. Genau mit dieser Hypothek ging OpenAI in den Herbst 2025 – in eine Phase, in der Google und Anthropic ihre eigenen Modelle aggressiv nach vorne schoben.
2. Gemini 3 verändert das Kräfteverhältnis – zumindest in der Wahrnehmung
Am 18. November stellte Google Gemini 3 vor. CEO Sundar Pichai nannte es das „most advanced“ („fortschrittlichste“) Modell des Unternehmens, mit stark verbesserter multimodaler Verarbeitung, Agentenfunktionen und Langzeitplanung.
Innerhalb weniger Tage kletterte Gemini 3 Pro an die Spitze der LMArena-Leaderboards, einer Community-Plattform, auf der Modelle in direkten Blind-Vergleichen gegeneinander antreten.
- Gemini 3 Pro erreichte dort einen Rekord-Elo-Wert von rund 1501 und übertraf GPT-5.1, Claude Opus 4.5 und Grok 4.1.
- Google-Vertreter wie Jeff Dean warben offensiv damit, Gemini-3-Pro sei jetzt „#1 across all major Arena leaderboards … surpassing Grok-4.1, Claude-4.5, and GPT-5″ („Nummer 1 in allen wichtigen Arena-Bestenlisten … übertrifft Grok-4.1, Claude-4.5 und GPT-5″).
Auf anspruchsvollen Reasoning-Benchmarks wie GPQA Diamond, MMMU-Pro oder Video-MMMU erzielte Gemini 3 neue Bestwerte und setzte sich insbesondere bei wissenschaftlichen, mathematischen und Video-Aufgaben ab.
Während also beim Besuch bei OpenAI am 19. November noch ein offiziell gelassenes „Wir schauen uns das in Ruhe an“ zu hören war, hatte sich das Stimmungsbild in der Öffentlichkeit bereits deutlich verschoben: Zum ersten Mal seit 2022 schien Google in der Wahrnehmung vieler Beobachter vorne zu liegen.
Auch Altman selbst reagierte öffentlich – zunächst versöhnlich. Auf X schrieb er:
„Congrats to Google on Gemini 3! Looks like a great model.“ („Glückwunsch an Google zu Gemini 3! Sieht nach einem großartigen Modell aus.“)
Gleichzeitig berichteten Insider und Medien, dass intern längst klar war, wie ernst dieser Schritt war:
- Ein geleaktes Memo, das in Anleger-Diskussionen zitiert wurde, sprach davon, dass OpenAI sich nun in einer Position befinde, in der man „catching up fast“ („schnell aufholen“) müsse.
- Analysten beschrieben Gemini 3 als Modell, das Rivalen „auf dem falschen Fuß“ erwischt habe und in mehr als einem Dutzend Benchmarks vorne liege.
3. Kleine Leistungsunterschiede, große Wirkung: Warum Wahrnehmung so wichtig ist
Bemerkenswert ist, wie schmal die objektive Lücke zwischen den Spitzenmodellen ist – und wie groß die psychologische Wirkung dennoch ausfällt.
Vergleichsstudien von Beratungen und Entwicklern zeigen:
- GPT-5.1 und Claude Opus 4.5 erreichen auf akademischen Reasoning-Benchmarks wie MMLU jeweils um die 90 Prozent oder mehr und liegen „roughly on par“ („ungefähr gleichauf“).
- In Spezial-Benchmarks schlägt mal das eine, mal das andere Modell: Claude Opus 4.5 liegt beispielsweise bei ARC-AGI-2 (abstraktes Problemlösen) deutlich vor GPT-5.1, während GPT-5.1 bei bestimmten wissenschaftlichen QA-Tests knapp vorne liegt.
- Claude Opus 4.5 dominiert wiederum bei Agenten-Benchmarks wie Terminal-Bench und τ²-Bench, Gemini 3 Pro erzielt Bestwerte bei multimodalen Prüfungen, GPT-5-Varianten punkten bei einigen Wissens- und Schreibaufgaben.
Kurz: Für viele praktische Einsätze sind die Top-Modelle funktional austauschbar – die Unterschiede liegen oft im einstelligen Prozentbereich.
Genau das bringt Marc Benioff, CEO von Salesforce, prägnant auf den Punkt. Auf X schrieb er:
„LLMs are the new disk drives: commodity infrastructure you hot-swap for whoever’s cheapest + best. The fantasy that the model is a moat just expired.“ („LLMs sind die neuen Festplatten: Standardinfrastruktur, die man gegen die jeweils günstigste und beste austauscht. Die Fantasie, dass das Modell einen Burggraben darstellt, ist gerade abgelaufen.“)
In einem CNBC-Interview sagte er ähnlich zugespitzt:
„All these large language models are identical. We simply seek the most cost-effective option, then we integrate it.“ („All diese großen Sprachmodelle sind identisch. Wir suchen einfach die kostengünstigste Option und integrieren sie dann.“)
Wenn aber alle Spitzenmodelle aus Sicht großer Unternehmenskunden austauschbar werden, verschiebt sich der Wettbewerb:
- vom reinen Modell-Benchmark hin zur Wahrnehmung von Führerschaft,
- zur Nutzererfahrung (Speed, Zuverlässigkeit, Persönlichkeit, Produktintegration)
- und zum Vertrauen, dass ein Anbieter auch in zwei, drei Jahren noch vorne mitspielt.
Vor diesem Hintergrund lässt sich der Schritt zu „Code Red“ besser verstehen: Es geht nicht allein um ein paar Elo-Punkte. Es geht darum, die Erzählung zu verteidigen, wer im KI-Feld den Takt vorgibt.
4. Der „Code Red“ bei OpenAI: Was im geleakten Memo steht
Am 1. Dezember berichtete zunächst The Information über ein internes Memo von Sam Altman. Wenig später bestätigten weitere Medien – darunter das Wall Street Journal, Fortune, CNBC, MacRumors und t3n in Deutschland – die zentralen Punkte.
Die Kernbotschaft:
OpenAI geht in einen „Code Red“-Modus.
Aus den Berichten und Zitaten lässt sich das Bild recht klar nachzeichnen:
- Altman erklärte, man sei „at a critical time for ChatGPT“ („in einer kritischen Zeit für ChatGPT“).
- In dem Memo heißt es, OpenAI müsse „more resources to improve ChatGPT“ („mehr Ressourcen zur Verbesserung von ChatGPT“) marshalen, um nicht von Google oder Anthropic abgehängt zu werden.
- Andere Vorhaben würden dafür zurückgestellt, darunter:
- der Start von Werbeanzeigen in ChatGPT,
- Shopping-Agenten,
- ein persönlicher Assistent mit dem Codenamen „Pulse“,
- Projekte in Bereichen wie Health, Retail und Advertising.
MacRumors zitiert aus den internen Anweisungen, man müsse vor allem arbeiten an:
„personalization for each user, image generation, and model behavior like speed and reliability.“ („Personalisierung für jeden Nutzer, Bildgenerierung und Modellverhalten wie Geschwindigkeit und Zuverlässigkeit.“)
Das Wall Street Journal beschreibt, Altman habe betont, die Nutzererfahrung im Alltag müsse besser werden: ChatGPT solle persönlicher, schneller, verlässlicher und breiter einsetzbar sein.
CNBC spricht von einer deutlichen Anspannung:
„Sam Altman is under considerable stress.“ („Sam Altman steht unter erheblichem Stress.“)
In Investor-Foren kursiert ein Satz aus einem weiteren, geleakten Schreiben:
OpenAI befinde sich gegenüber Google nun in der Rolle des „catching up fast“ („schnell aufholen“).
In der Reddit-Community „ArtificialIntelligence“ zitiert ein offenbar gut informierter Account das Memo in zugespitzter Form:
„Yesterday, Sam Altman issued an urgent internal memo to all OpenAI employees, declaring a ‚code red.‘ This meant halting all activities to prioritize fixing ChatGPT and focusing entirely on quality improvements. … Planned advertisements? Postponed. AI shopping initiatives? On hold. Health agents? Abandoned. The personal assistant project? Delayed indefinitely.“ („Gestern hat Sam Altman ein dringendes internes Memo an alle OpenAI-Mitarbeiter verschickt und einen ‚Code Red‘ erklärt. Das bedeutete, alle Aktivitäten zu stoppen, um die Behebung von ChatGPT-Problemen zu priorisieren und sich vollständig auf Qualitätsverbesserungen zu konzentrieren. … Geplante Werbung? Verschoben. KI-Shopping-Initiativen? Auf Eis gelegt. Gesundheits-Agenten? Aufgegeben. Das persönliche Assistenten-Projekt? Auf unbestimmte Zeit verzögert.“)
Diese Formulierung stammt zwar nicht wörtlich aus dem Memo, fasst aber die Berichte mehrerer Medien treffend zusammen.
Fortune berichtet außerdem, Altman habe in dem Memo angekündigt, man werde bereits in der folgenden Woche ein neues Reasoning-Modell freigeben, das Gemini 3 in internen Evaluierungen „beats“ („schlägt“). Damit sendet er eine doppelte Botschaft: Intern soll es motivieren („wir haben ein stärkeres Modell in der Hinterhand“), extern soll es signalisieren, dass OpenAI technisch keineswegs abgehängt sei.
5. Nutzerverluste und Benchmark-Schock: Der äußere Druck
Die Entscheidung für „Code Red“ kam nicht im luftleeren Raum. Gleich mehrere Kennzahlen zeigten, dass Gemini 3 für OpenAI mehr als nur ein PR-Problem ist.
Mashable verweist auf Auswertungen von SimilarWeb und Analysen des ehemaligen Google-Mitarbeiters Deedy Das:
- In der Woche nach dem Launch von Gemini 3 gingen die täglichen Besuche bei ChatGPT von rund 203 Millionen auf 191 Millionen zurück – ein Minus von knapp 6 Prozent beziehungsweise etwa 12 Millionen Nutzer pro Tag.
- Das mag kurzfristig auch mit Feiertagen wie Thanksgiving zusammenhängen, ist aber für einen Dienst, der auf schnelles Wachstum angewiesen ist, ein ernstzunehmendes Signal.
Parallel dominierten Benchmarks und Social-Media-Posts, in denen Gemini 3 Pro ChatGPT-Varianten übertraf.
- Google und DeepMind kommunizierten offensiv, Gemini 3 Pro sei nun „#1 in Text, Vision, and WebDev“ und führe in Kategorien wie Coding, Math, Creative Writing und Long Queries.
- In vielen Vergleichen rangierte GPT-5.1 plötzlich nicht mehr an der Spitze, sondern auf Platz 3 oder 4 hinter Gemini 3 Pro und Claude Opus 4.5.
Nasdaq formulierte es zugespitzt:
„Google’s recently updated Gemini model outperformed rivals, setting off alarm bells at OpenAI.“ („Googles kürzlich aktualisiertes Gemini-Modell übertraf Konkurrenten und löste bei OpenAI Alarmglocken aus.“)
Business Insider ordnete die Lage in eine größere Erzählung ein: 2022 hatte Google intern selbst einen „Code Red“ ausgerufen, um auf den Überraschungserfolg von ChatGPT zu reagieren. Drei Jahre später sei nun das einstige Start-up, OpenAI, in der Position, mit einem eigenen „Code Red“ auf den Vormarsch des einstigen Platzhirsches Google zu reagieren.
Der Wettlauf ist also weniger eine einseitige Aufholjagd, sondern ein permanentes Überholen und Überholtwerden. Genau das bestätigt Marc Benioff in einem Interview sinngemäß:
„They’re constantly leapfrogging each other. … The idea that the model that’s successful today is going to be the model that’s going to be successful tomorrow is not true.“ („Sie überholen sich ständig gegenseitig. … Die Vorstellung, dass das heute erfolgreiche Modell auch morgen erfolgreich sein wird, stimmt nicht.“)
6. Die innere Lage bei OpenAI: Zwischen Selbstkritik und Anspruch aufs Spitzenfeld
Setzt man all diese Puzzleteile zusammen – GPT-5-Backlash, Benchmark-Druck, Nutzerverluste, abgewanderte Spitzenkräfte –, entsteht ein klares Bild der inneren Verfassung von OpenAI im Herbst/Winter 2025.
1. Verletztes Selbstbild durch GPT-5
Die Wucht der Kritik an GPT-5 traf das Unternehmen in einem Bereich, den man bisher als Stärke gesehen hatte: Nutzerloyalität und „magische“ User Experience. Altman selbst räumte ein, man habe den Start „totally screwed up“ („völlig vermasselt“) und Monate an Arbeit in Personality-Tuning nachschieben müssen. Medienberichte wie jene der New York Times über Nutzer in psychischen Krisen, die sich stark auf ChatGPT stützen, machten deutlich, wie heikel jede Veränderung an der Persönlichkeit des Modells geworden ist.
2. Wachsende Konkurrenz an der Spitzenposition
Claude Opus 4.5 setzte neue Maßstäbe bei abstraktem Reasoning und Coding-Benchmarks. Gemini 3 Pro übernahm die Führung bei multimodalen und wissenschaftlich anspruchsvollen Tests sowie in der öffentlichen Benchmark-Arena. Vergleichsstudien sprechen offen davon, dass GPT-5.1 „no longer clearly ahead“ („nicht mehr klar vorne“) sei und sich das Feld faktisch nivelliert habe.
3. Personelle Erosion im Spitzenbereich
Fortune und andere berichten, dass Dutzende hochrangige Forscher und Ingenieure zu neuen Rivalen wie „Thinking Machines“ (gegründet von Ex-CTO Mira Murati) oder Metas Superintelligence-Labs gewechselt sind. Für ein Unternehmen, das seine Identität stark über „die besten Leute der Welt“ definiert, ist das ein zusätzlicher Belastungsfaktor.
4. Finanzieller und strategischer Druck
OpenAI ist weiterhin nicht profitabel und auf großes Nutzerwachstum sowie hohe Auslastung seiner Infrastruktur angewiesen. Gleichzeitig investiert Google Milliarden in eigene Rechenzentren und integriert Gemini tief in Produkte wie Search, Workspace oder Android – eine Distributionsmacht, mit der ein reiner API-Anbieter kaum mithalten kann.
Das alles kulminiert im „Code Red“: einem internen Eingeständnis, dass OpenAI den Luxus verloren hat, gleichzeitig an vielen Seitenprojekten zu arbeiten, während andere den Kern-Usecase „Alltags-Assistent“ neu definieren.
7. Was Entscheider daraus lernen können
1. Modellqualität ist nur ein Teil der Wahrheit
In den Spitzensegmenten sind die großen Modelle heute so gut, dass es für viele Anwendungen wenig Unterschied macht, ob ein Modell auf einem Benchmark ein paar Punkte vorne oder hinten liegt. Wichtiger sind:
- Geschwindigkeit,
- Stabilität,
- Integration in bestehende Tools,
- Preis und
- Governance (Datenschutz, Compliance, Sicherheit).
2. Wahrnehmung kann harte Fakten überlagern
Wenn die Story lautet „Google ist jetzt vorn“ – belegt durch Benchmarks, Social-Media-Buzz und prominente Fürsprecher – wirkt das auf Kunden, Investoren und Talente auch dann, wenn die technischen Unterschiede marginal sind. OpenAIs „Code Red“ ist deshalb nicht nur ein Technik-, sondern auch ein Kommunikations- und Vertrauensprojekt.
3. Abhängigkeit von einem einzigen Anbieter ist riskant
Wenn LLMs zunehmend „commodity infrastructure“ werden, wie es Benioff beschreibt, liegt die strategische Stärke für Unternehmen weniger in der Wahl des einen „besten“ Modells, sondern in:
- Architekturentscheidungen, die den Wechsel zwischen Modellen erleichtern,
- der Fähigkeit, mehrere Modelle parallel für unterschiedliche Aufgaben zu nutzen,
- und dem Aufbau eigener Daten- und Prozesskompetenz.
Fazit: „Code Red“ als Signal, dass der Wettlauf um Wahrnehmung begonnen hat
Der interne „Code Red“ bei OpenAI ist ein sichtbares Symptom einer tieferen Verschiebung im KI-Ökosystem.
Technisch nähern sich die führenden Modelle an; sie überholen sich wechselseitig in kurzen Abständen. Die eigentliche Konkurrenz verlagert sich auf Ebenen, die für Außenstehende schwerer zu messen sind: Nutzererlebnis, Geschwindigkeit, Vertrauen, Geschäftsmodell, Distribution.
Für OpenAI kommt erschwerend hinzu, dass der missglückte GPT-5-Start das Selbstbild als unangefochtener Qualitätsführer ins Wanken gebracht hat. Gemini 3 wirkt in diesem Kontext wie ein Katalysator: Es zwingt das Unternehmen, seine Ressourcen neu zu bündeln – und offenbart, wie empfindlich die Branche auf Verschiebungen in der öffentlichen Wahrnehmung reagiert.
Der lange Moment des Schweigens in einem Konferenzraum in San Francisco an jenem 19. November war damit rückblickend mehr als eine höfliche Denkpause. Er markierte den Augenblick, in dem deutlich wurde: Die nächste Phase des KI-Wettlaufs wird nicht allein im Rechenzentrum entschieden – sondern vor allem in den Köpfen der Nutzer, der Kunden und der Märkte.
Weitere Artikel zu diesem Themenfeld
Dieses Thema hat mehr Facetten, als ein einzelner Artikel abbilden kann. Hier sind Beiträge, die verschiedene Aspekte davon vertiefen:
