TL;DR
OpenAI hat über eine Milliarde Dollar für GPT-5 ausgegeben und dabei ein ernüchterndes Ergebnis erzielt: Die Verbesserungen sind messbar, aber nicht revolutionär. Mit Kosten von 10-62 Millionen Dollar pro Benchmark-Prozentpunkt zeigt sich erstmals klar das „Law of Diminishing Returns“ in der KI-Entwicklung. Gleichzeitig schrumpft der Abstand zwischen Spitzenmodellen auf unter 5% – alle sind mittlerweile sehr gut, keiner mehr deutlich überlegen. GPT-5 ist kostenlos verfügbar, was eher ein Zeichen von Marktunsicherheit als von Stärke sein dürfte. Das eigentliche Problem: Nicht schwache KI-Modelle bremsen uns aus, sondern unsere Unfähigkeit, die bereits vorhandenen Möglichkeiten sinnvoll zu nutzen. Wir haben möglicherweise das Ende der LLM-Ära erreicht – nicht durch Versagen, sondern durch Sättigung. Und genutzt wurde bereits von den ersten Modellen von der Mehrheit der Anwender auch nur ein winziger Bruchteil. Warum also noch der Aufwand?
GPT-5? Worum geht’s hier?
OpenAI hat am 7. August 2025 GPT-5 veröffentlicht – und erstmals wird deutlich: Die Ära der exponentiellen Verbesserungen könnte vorbei sein. Trotz astronomischer Entwicklungskosten von über einer Milliarde Dollar liefert GPT-5 zwar solide Verbesserungen, aber keine Revolution. Für normale Nutzer stellt sich die Frage: Brauchen wir überhaupt noch leistungsfähigere Modelle? Oder haben wir bereits den Punkt erreicht, an dem „mehr KI“ nicht automatisch „bessere Ergebnisse“ bedeutet?
Ein Milliarden-Gamble mit ernüchternden Ergebnissen
Die wahren Kosten des Fortschritts
Hinter GPT-5 steckt das teuerste KI-Entwicklungsprojekt aller Zeiten. Jeder einzelne Trainingslauf kostete zwischen 500 Millionen und 1,2 Milliarden US-Dollar. OpenAI führte dabei mindestens zwei gescheiterte Versuche durch, bevor die finale Version erfolgreich war.
Die nackten Zahlen zeigen das Ausmaß:
- 50.000+ NVIDIA H100 GPUs (eine enorme Steigerung von den 20.000 A100s bei GPT-4)
- 5.000-15.000 MWh Energieverbrauch pro Trainingslauf
- Millionen Liter Kühlwasser für die Rechenzentren
- 3-6 Monate Trainingsdauer pro Versuch
Doch was bekommen wir für diesen beispiellosen Ressourceneinsatz?
Der ROI-Schock: Milliarden für Prozentpunkte
Die Benchmark-Verbesserungen sind messbar, aber eigentlich auch wieder ernüchternd:
- SWE-Bench Verified: Von 52% auf 74,9% (+22,9 Punkte)
- AIME 2025 Math: Von 46,4% auf 94,6% (+48,2 Punkte)
- GPQA Science: Von 66,3% auf 85,7% (+19,4 Punkte)
Das bedeutet: OpenAI zahlte zwischen 10-62 Millionen Dollar pro Benchmark-Prozentpunkt – ein klares Zeichen für das Law of Diminishing Returns in der KI-Entwicklung. Mann pumpt immer mehr rein, bekommt aber im Vergleich zu vorher nur wenig mehr an Zusatzleistung heraus.
Die Konkurrenz rückt zusammen – und das ist das eigentliche Problem
Wenn alle Spitze sind, ist keiner mehr spitze
Die vielleicht wichtigste Erkenntnis von GPT-5: Der Unterschied zwischen den Spitzenmodellen schrumpft dramatisch.
Die aktuellen Chatbot Arena Ergebnisse zeigen:
- GPT-5: ~1350-1400 ELO
- Claude 4 Opus: ~1330-1370 ELO
- Gemini 2.5 Pro: ~1320-1360 ELO
- Grok 4: ~1310-1350 ELO
Der Unterschied zwischen Platz 1 und 10 beträgt nur noch 5,4% – 2024 waren es noch 11,9%. Die Leistungslücke schließt sich rapide.
Ein faszinierender Befund: Stil schlägt Substanz
Besonders interessant: Wenn man die Style-Control bei der Bewertung deaktiviert, führt Gemini 2.5 Pro immer noch vor GPT-5. Das deutet darauf hin, dass Nutzerpräferenzen oft stilistische Faktoren über reine Fähigkeiten stellen.
Die „objektive“ Überlegenheit eines Modells wird zunehmend diskussionswürdig.
Was GPT-5 wirklich bringt – und für wen
Die Revolution liegt im Detail
GPT-5 ist nicht einfach nur ein stärkeres Modell. Es ist ein einheitliches System, das erstmals schnelle Antworten und tiefe Denkprozesse kombiniert:
- Schnelles Modell für alltägliche Anfragen
- Reasoning-Modell (GPT-5 Thinking) für komplexe Probleme
- Intelligenter Router, der automatisch zwischen beiden wählt
Statt zwischen verschiedenen Modellen wählen zu müssen, entscheidet GPT-5 selbstständig, wann eine schnelle Antwort genügt und wann tieferes Nachdenken erforderlich ist.
Aber wer hat sich schon beim täglichen Prompten Gedanken gemacht, ob jetzt GPT 3.5 oder GPT 4o oder o3 oder o4 mini oder eines der anderen Modelle jetzt die bessere Wahl wäre?
Beeindruckende Qualitätssprünge – aber wer braucht sie wirklich?
Ich will die Anstrengung nicht schlechtreden. Die Verbesserungen sind real:
- 45-80% weniger Halluzinationen (kritisch für Enterprise-Einsatz)
- Nur 1,6% Fehlerrate bei medizinischen Anfragen vs. 15,8% bei GPT-4o
- 94,6% Erfolgsrate bei Mathematik-Olympiade-Aufgaben ohne Tools, 100% mit Python
Doch hier stellt sich die entscheidende Frage: Wie viele normale Nutzer stoßen überhaupt an die Grenzen von GPT-4? Oder an die von 3.5?
Die große Demokratisierung – oder der letzte Schachzug?
Kostenlos für alle – warum jetzt?
GPT-5 steht erstmals allen ChatGPT-Nutzern sofort kostenlos zur Verfügung – auch denen ohne Abo. Das ist bemerkenswert, denn:
Kostenlose Nutzer erhalten:
- 10 GPT-5 Nachrichten alle 5 Stunden (48 pro Tag)
- Automatischer Wechsel zu GPT-5 Mini bei Überschreitung
- Erstmals Zugang zu einem Reasoning-Modell ohne Bezahlung
Die Preisgestaltung des Modells per API ist aggressiv wettbewerbsfähig:
- GPT-5: $1,25/$10 pro Million Token
- GPT-5 Mini: $0,25/$2 pro Million Token
- Claude Opus 4.1: $15/$75 pro Million Token
Ein Zeichen der Schwäche oder Stärke?
Diese Großzügigkeit könnte zwei Gründe haben:
- Marktverteidigung: OpenAI spürt den Druck der Konkurrenz und will Nutzer bei der Stange halten und die verführerischen Angebote der Konkurrenze (DeepSeek: kostenlos; Llama: kostenlos…)
- Confidence Play: Das Unternehmen ist so sicher von der Überlegenheit, dass es sich leisten kann, das Modell zu verschenken
Ich tendiere zur ersten Erklärung.
Der verdächtige Zeitpunkt: EU AI Act als ungewollter Dreh- und Angelpunkt?
24 Stunden können teuer werden
Ein Detail am Rande, das aufhorchen lässt: GPT-5 wurde am 7. August 2025 veröffentlicht – nur fünf Tage nach Inkrafttreten der GPAI-Verpflichtungen des EU AI Acts am 2. August 2025. Vermutet wurde die Veröffentlichung rund um dieses Datum schon länger. Warum?
Modelle, die vor dem 2. August auf den Markt kamen, haben eine Übergangsfrist bis August 2027. GPT-5 verpasste diese Frist um nur wenige Tage. Inwieweit sie ihr Modell bereits vor der public presentation bei der EU angemeldet hat, wissen wir nicht. Es ist aber zu vermuten, dass sich OpenAI diese Chance nicht hat entgehen lassen. Und dann erst Tage danach in einem schönen Marketing-Event GPT-5 der allgemeinen Öffentlichkeit präsentiert.
War das Zufall oder Kalkül?
Die EU-Compliance-Kosten hätten bei GPT-5s Entwicklungsbudget von über 500 Millionen Dollar durchaus einen spürbaren Aufschlag von 25-50 Millionen Dollar bedeuten können. OpenAI hat es sicher richtig gemacht…
Ich frage mich schon einige Zeit:
Sind wir am Ende der LLM-Ära angekommen?
Drei entscheidende Erkenntnisse
1. Das Plateau ist erreicht
GPT-5 zeigt erstmals klar, dass exponentielle Kostensteigerungen nicht mehr zu entsprechenden Leistungssprüngen führen. Die Verbesserungen sind zwar real, aber inkrementell statt revolutionär.
2. Qualität wird wichtiger als Performance
OpenAI fokussierte sich bewusst auf Zuverlässigkeit und Benutzerfreundlichkeit statt maximale Benchmark-Scores. Dies könnte ein Paradigmenwechsel der gesamten Industrie signalisieren.
3. Die Konkurrenz konvergiert
Mit weniger als 5% Unterschied zwischen Spitzenmodellen erreichen wir möglicherweise ein Performance-Plateau, wo Differenzierung durch User Experience und Kosten statt roher Intelligenz erfolgt.
Was das für normale Nutzer bedeutet
Für die meisten Anwendungsfälle sind wir bereits über dem Punkt des praktischen Nutzens angekommen. GPT-4 kann bereits:
- Komplexe Texte schreiben und überarbeiten
- Code in den meisten Programmiersprachen generieren
- Fachfragen auf PhD-Niveau beantworten
- Kreative Aufgaben lösen
Die Frage ist nicht mehr, ob KI gut genug ist – sondern ob wir überhaupt wissen, was wir damit anfangen sollen.
Der Mensch als Flaschenhals
Das wahre Problem liegt nicht in der Technik
Hier wird ein fundamentales Problem sichtbar: Nicht die KI ist der limitierende Faktor, sondern unsere Fähigkeit, sie sinnvoll zu nutzen.
Die meisten Menschen nutzen ChatGPT immer noch für:
- Einfache Textkorrekturen
- Grundlegende Recherchen
- Alltägliche Fragen
Dafür war bereits GPT-3.5 mehr als ausreichend.
Das eigentliche Hindernis für KI-Adoption sind nicht schwache Modelle, sondern:
- Mangelndes Verständnis der Möglichkeiten
- Falsche Nutzung
- Fehlende Integration in bestehende Workflows
- Unklarheit über sinnvolle Anwendungsszenarien
Fazit: Ein Wendepunkt mit Fragezeichen
GPT-5 markiert möglicherweise das Ende des „Bigger is Better“-Paradigmas in der KI-Entwicklung. Die Zeiten, in denen jede neue Modellgeneration einen Quantensprung bedeutete, scheinen vorbei.
Das ist per se aber keine schlechte Nachricht.
Es bedeutet, dass wir uns von der Technik-Gigantomanie-Fixierung lösen und uns auf das konzentrieren können, was wirklich zählt: Wie können wir KI sinnvoll in unser Leben und unsere Arbeit integrieren?
Statt immer mächtigere Modelle zu entwickeln, die kaum jemand ausreizt, sollten wir lernen, die bereits vorhandenen Möglichkeiten besser zu nutzen. Der wahre Fortschritt liegt nicht in der nächsten GPU-Farm, sondern in unserer Fähigkeit, mit KI zu denken statt über KI zu staunen.
Die Zukunft der KI liegt nicht in größeren Modellen – sondern in klügerer Nutzung.
In meinem nächsten Blogbeitrag werde ich genauer erläutern, warum ich glaube, dass der Weg der Large Language Models sein natürliches Ende erreicht hat – und welche Entwicklungen stattdessen die nächste KI-Revolution prägen werden.
Wie man KI-Modelle im Büroalltag sinnvoll einsetzt, welche Promptingstrategien wann richtig sind, wo die Grenzen der KI liegen, das alles vermitteln wir Ihnen in unseren Workshops. (oder hier) Nehmen Sie gerne Kontakt auf.
Weitere Artikel zu diesem Themenfeld
Dieses Thema hat mehr Facetten, als ein einzelner Artikel abbilden kann. Hier sind Beiträge, die verschiedene Aspekte davon vertiefen:
