Die 20-Dollar-Illusion: Warum KI-Nutzung teurer ist, als Sie denken. Und Sie bald den wahren Preis zahlen.

TL;DR? Warum Sie das trotzdem lesen sollten.

In den letzten Jahren hat sich ein merkwürdiges Phänomen entwickelt. Millionen Menschen nutzen täglich große Sprachmodelle – für Texte, Analysen, Code, Recherche – und zahlen dafür einen Betrag, der in etwa dem Streaming-Abo für eine Filmplattform entspricht. Zwanzig Dollar. Höchstens Dreißig.

Wenn überhaupt. Denn meist kann man aber GPT 5, Gemini, Claude und alle anderen Anbieter auch völlig kostenfrei nutzen. Und der ganz große Teil der Nutzer haben genau das für sich gewählt.
Services, Entwicklungen, Modelle, die irrsinnige Summen an Investitionen verschlingen und deren Betrieb auch Geld kostet. Für 0 €.

Das fühlt sich cool an. Ist es aber nicht. Zumindest nicht mehr für die Anbieter. Und deshalb demnächst auch nicht mehr für den Nutzer.

Denn die laufenden Kosten, die irre Summe an angehäuften (verbrauchten) Investitionen können nicht ohne Return on Investment bleiben, sonst wird das ein massives Problem.

Nicht nur für die Anbieter allein – sondern für jeden, der heute oder in Zukunft KI ernsthaft in seinen Arbeitsprozessen nutzt und seine Mitarbeitenden antreibt, sie mehr und mehr einzusetzen. Kostet ja (fast) nix. Falsch!

Häufige Fragen in diesem Kontext und deren Antworten finden sie am Ende des Artikels


Was hinter jedem Satz, Berechnung, Bild, Lied, Strategiepapier, Gedicht steckt, das eine KI schreibt

Um zu verstehen, warum das so ist, braucht es einen kurzen Blick hinter die Kulisse. Keine Technikvorlesung – aber eine Erklärung, die hilft, die kommenden Entwicklungen einzuordnen.

Wenn Sie eine Frage in ChatGPT, Claude oder ein vergleichbares System eingeben, passieren zwei Dinge: Zuerst liest das Modell Ihre gesamte Eingabe – also den Prompt, den bisherigen Gesprächsverlauf, vielleicht ein angehängtes Dokument. Das nennt sich Prefill-Phase. Dann generiert es Wort für Wort die Antwort.

Klingt simpel. Ist es technisch aber nicht.

CloudComputing-Insider beschreibt das so: Der Aufwand beim Lesen des Inputs steigt bei Standard-Modellen quadratisch zur Länge des Inputs. Mehr Kontext bedeutet überproportional mehr Rechenleistung – und damit mehr Kosten. Die großen Cloud-Anbieter wissen das. Deshalb haben sie ihre Preise genau hier angesetzt: Nutzer zahlen pro Token – also pro Wort, pro Silbe, pro Satzzeichen.

Diesen Prozess – vom Einlesen des Prompts bis zur letzten Zeile der Antwort – nennt man KI-Inferenz. Und genau hier entstehen die eigentlichen Betriebskosten von KI-Systemen.


Inferenz: Der unterschätzte (Geld-) Verbrenner-Motor des KI-Betriebs

Es gibt eine verbreitete Vorstellung, wie KI-Ausgaben verteilt sind: Das große Geld fließt ins Training – also in den einmaligen, spektakulären Prozess, bei dem ein Modell mit gigantischen Datenmengen gefüttert wird. Danach läuft es einfach so.

Diese Vorstellung ist aber völlig falsch.

F5 Networks hat analysiert, wie sich die KI-Ausgaben verteilen – und kommt zu einem anderen Bild: Die Kosten verteilen sich ungefähr hälftig auf Training und Inferenz. Wobei Inferenz der Dauerläufer ist: Sie skaliert mit jeder Anfrage, mit jedem Nutzer, mit jedem neuen Anwendungsfall. Training ist einmalig. Inferenz ist permanent. Damit verschiebt sich das Verhältnis jeden Tage, jede Minute der Nutzung zu Inferenz. Mehr Geld fließt langfristig in den Betrieb, als in das Training eines Modells.

Manche Analysen gehen noch weiter. LinkedIn-Analysen zur KI-Ökonomie beziffern den Inferenzanteil auf 60 bis 80 Prozent der gesamten KI-Betriebskosten.

Die großen Cloud-Anbieter – AWS, Azure, Google – haben das längst verstanden. Deshalb entwickeln sie eigene, spezialisierte Inferenz-Chips. Der AWS Inferentia etwa lässt alles weg, was fürs Training gebraucht wird – und konzentriert sich ausschließlich auf schnelles, günstiges Ausgeben von Daten. Das soll die Kosten pro Anfrage um bis zu 40 Prozent senken, verglichen mit Standard-GPU-Instanzen.

Man optimiert intern also intensiv – weil der Kosten-Druck enorm ist.


Warum Flatrates nicht gratis sind. Nur anders bezahlt.

Jetzt kommt der Teil, der für Alltagsnutzer relevant ist.

In klassischen Software-Produkten funktioniert die Kostenlogik so: Je mehr Nutzer, desto günstiger wird jeder einzelne Nutzer – weil die Fixkosten sich verteilen. Das ist der Effekt, der SaaS-Unternehmen so profitabel macht.

Bei KI-Inferenz gilt dieser Effekt nicht.

CloudComputing-Insider bringt es auf den Punkt: „Ein Token kostet auf der GPU immer eine bestimmte Menge Energie und Zeit, egal ob es der erste oder der millionste Nutzer ist.“ Jede Anfrage verbraucht Ressourcen. Ohne Ausnahme. Ohne Skaleneffekt beim einzelnen Token.

Wenn ein Anbieter eine Flatrate verkauft, selbst aber im Hintergrund pro Anfrage bei Hyperscalern zahlt, dann kann ein intensiver Nutzer den Deckungsbeitrag pro Kunde vollständig auffressen. Exakt das beschreibt CloudComputing-Insider: „Wenn ein Geschäftsmodell vorsieht, dass Kunden eine Flatrate zahlen, ihre Cloud-Kosten für die KI-Antworten aber pro Anfrage abgerechnet werden, kann ein ‚zu aktiver‘ Nutzer den Gewinn pro Kunde komplett auffressen.“

Die Flatrate ist also kein Zeichen davon, dass KI günstig ist. Sie ist ein Zeichen davon, dass jemand die echten Kosten vorerst trägt – aus Investorengeldern, Quersubventionierung durch Enterprise-Verträge oder der schlichten Hoffnung auf Nutzerbindung. Erst Marktanteile gewinnen, dann durch Super-Modelle zum Lach-Preis Abhängigkeiten schaffen (wollen sie ihren ChatGPT-Account einfach so löschen? Wenn sie das Tool intensiv nutzen, sehr sicher nicht), dann sinken die Limits (merken sie vermutlich schon, dass immer früher eine Pause eingelegt werden muss, weil Limits aufgebraucht sind), dann gibt es Angebote für die nächste Stufe mit höherer Nutzungslimits (sehen sie bestimmt auch schon – leider 5-facher Preis), dann sinken die Limits auf unnutzbare Untergrenzen und die Preise für die anderen Versionen steigen. Und an dieser Schwelle stehen wir jetzt.

IT-Boltwise formuliert das ohne Umschweife: „Die Nutzung von Künstlicher Intelligenz könnte bald teurer werden. Unternehmen wie OpenAI und Anthropic stehen unter Druck, ihre Preise zu erhöhen, um profitabel zu werden. Trotz effizienterer Chips steigen die Gesamtausgaben für KI weiter an.“


Die Party hat ein Ablaufdatum

Es gibt gute Nachrichten und schlechte Nachrichten, was die Preisentwicklung betrifft.

Die gute Nachricht: KI wird pro Rechenoperation tatsächlich günstiger. Laut dem AI Index 2025, zitiert von NVIDIA, sind die Inferenzkosten für ein System auf GPT-3.5-Niveau zwischen November 2022 und Oktober 2024 um mehr als den Faktor 280 gesunken. Hardware wird jedes Jahr um rund 30 Prozent günstiger. Energieeffizienz steigt um rund 40 Prozent pro Jahr.

Die schlechte Nachricht: Die Nachfrage wächst schneller als diese Effizienzgewinne.

BigData-Insider beschreibt die Doppelbewegung treffend: KI wird pro Operation günstiger – aber das Rechnen insgesamt wird teurer, weil Volumen und Modellgrößen schneller steigen als die Effizienzgewinne. NVIDIA bringt es in einem Blogpost auf den Punkt: „Mit zunehmender Leistung und Nutzung eines KI-Modells steigen auch die Menge der generierten Token und die damit verbundenen Rechenkosten.“

CCNet kommentiert das Ende der Niedrigpreisphase direkt: „2025 ist diese Phase vorbei: Die Kosten für KI steigen deutlich – und das zwingt Unternehmen, ihre Geschäftsmodelle anzupassen.“ Als Kostentreiber nennt CCNet Energieverbrauch im Gigawatt-Bereich, wachsende Modellgrößen, spezialisierte Hardware und eine Nachfrage, die klassischer Angebots-/Nachfragelogik folgt.


Token-Limits: nicht Willkür, sondern Kostenrechnung

Wer intensiv mit KI-Tools arbeitet, kennt den Moment: Man ist mitten in einem komplexen Dokument, der Gesprächsverlauf ist lang, und plötzlich meldet das System, dass ein Limit erreicht ist. Manchmal stumm – die Antwortqualität nimmt einfach ab. Manchmal explizit mit einer Fehlermeldung.

Das ist kein technisches Versehen. Es ist ein wirtschaftliches Signal.

SesSoft erklärt den Mechanismus: „KI-Modelle können nicht beliebig große Textmengen auf einmal verarbeiten. Das sogenannte Tokenlimit legt fest, wie viele Tokens ein Modell insgesamt gleichzeitig im ‚Kontext‘ behalten und verarbeiten kann.“

Und Microsofts Azure-Plattform macht den Zusammenhang zwischen Limits und Kosten noch expliziter: Die dort eingebaute Token-Limit-Policy verhindert „Nutzungsspitzen der LLM-API pro Schlüssel, indem sie den Verbrauch von LLM-Token auf eine bestimmte Anzahl pro Minute begrenzt.“ Wer das Limit überschreitet, bekommt den HTTP-Statuscode 429 Too Many Requests zurück – den gleichen Code, den Systeme senden, wenn jemand zu schnell auf eine Ressource zugreift.

OpenAI und Co machen das Prinzip offiziell transparent: Wer mehr zahlt (nächsthöheres Abo-Modell), wird automatisch hochgestuft und erhält höhere Limits. Limits folgen also dem Geld – nicht der Technik, denn die bleibt genau die gleiche.

Wer das verstanden hat, versteht auch, warum Modelle mit wachsendem Kontextfenster nicht einfach „kostenlos besser“ werden. Jedes zusätzliche Token im Kontext kostet Rechenleistung. Jede längere Konversation ist eine längere Rechnung.


Was echte Nutzer heute schon spüren

Wer KI nicht über eine Flatrate-Oberfläche nutzt, sondern über APIs – also direkt in eigene Produkte oder Prozesse integriert – bekommt die Kostenstruktur unverblümt zu sehen. Also vor allem Großunternehmen.

Dida hat konkrete Preisbeispiele zusammengestellt: Für Output-Tokens lagen die Kosten bei GPT-3.5 bei 1,40 Euro pro Million Tokens, bei GPT-4 bei 55,80 Euro – ein Faktor von etwa 40. Wer auf einem leistungsfähigeren Modell arbeitet, zahlt also schnell ein Vielfaches. Der API-Kostenrechner von Gradually AI zeigt, wie sich das bei intensiver Nutzung aufaddiert: Hochleistungsmodelle wie o3-pro kosten 20 Dollar Input und 80 Dollar Output pro Million Tokens.

Entwickler-Communities spiegeln das. In Reddit-Diskussionen schreiben Entwickler, dass sie aus Kostengründen günstigere Modelle bevorzugen und leistungsfähigere Varianten nur für ausgewählte Nutzer freischalten. Nicht weil die günstigeren besser sind – sondern weil sie günstiger sind, für die meisten Anwendungen völlig ausreichen und die interne Rechnung sonst nicht aufgeht.

CloudComputing-Insider zieht daraus eine klare Schlussfolgerung für Unternehmen: „Wer die Inferenz nicht optimiert, riskiert, dass sein KI-Projekt mit zunehmendem Erfolg wirtschaftlich unrentabel wird.“ Und: „Das Management der Inferenzkosten ist kein vernachlässigbares technisches Detail, sondern vielmehr eine strategische Notwendigkeit.“

Red Hat bestätigt das aus der Infrastrukturperspektive: „Beim Wechsel von einem einzelnen Server zu produktionsgerechter, verteilter KI-Inferenz stoßen die meisten Unternehmen an ihre Grenzen.“


Was das für KMU konkret bedeutet

Bis hierher klingt das nach einem Problem für Tech-Konzerne, Startups mit millionenschwaren Investoren und IT-Abteilungen mit eigenem FinOps-Team. Aber das Thema reicht tiefer – und direkt in den Mittelstand.

Erstens: Wer heute keine Token-Disziplin lernt, hat morgen ein Kostenproblem.

Viele Unternehmen beginnen ihre KI-Nutzung genau jetzt – mit Flatrate-Zugängen, die wenig kosten und keine Kostenreflexion erfordern. Oder deutlich: völlig undiszipliniertes Plaudern und die KI mal erklären lassen, was man selbst für 0 Token im eigenen Gehirn auch hätte vorbereiten können.

Aber das ist der Einstieg, auf den wir auch verführt wurden. Probiert mal aus. Kostet doch nix … oder lächerliche 20 $. Das erzieht zu Gewohnheiten, die jetzt teuer werden, sobald die nächste Stufe kommt: eigene Integrationen, API-Nutzung, automatisierte Prozesse. Wer gelernt hat, verschwenderisch mit Tokens umzugehen – lange Prompts ohne Struktur, endlose Konversationsverläufe, ungefiltertes Einspeisen großer Dokumente – wird diese Gewohnheiten in Strukturen mitnehmen, wo sie direkt auf die Kostenrechnung drücken.

Zweitens: Modellwahl ist Kostenstrategie.

Alexander Thamm (KI-Beratung) beschreibt es klar: „Kleinere Modelle sind in der Regel kostengünstiger, schneller in der Inferenz und einfacher anzupassen. Größere Modelle bieten hingegen höhere Leistungsfähigkeit bei komplexen Aufgaben, sind jedoch wesentlich teurer im Betrieb.“ Für KMU bedeutet das: Nicht jede Aufgabe braucht das leistungsfähigste Modell. Ein gut strukturierter Prozess mit einem kleineren, spezialisierten Modell kann günstiger und schneller sein als der Griff zum Frontier-Modell per Reflex.

Drittens: On-Demand versus Batch – eine Entscheidung mit Kostenfolgen.

Es gibt zwei grundlegende Betriebsmodi: On-Demand-Verarbeitung, die hohe Verfügbarkeit und geringe Latenz erfordert und „entsprechend kostenintensiv“ ist – und Batch-Verarbeitung, bei der die Latenz höher ist, die Kosten pro Anfrage aber deutlich geringer. Für Unternehmen, die KI-gestützte Analysen, Berichte oder Auswertungen benötigen, ist die Frage relevant: Muss das in Echtzeit passieren? Oder reicht es, wenn das Ergebnis in einer Stunde vorliegt? In den allermeisten Fällen muss es nicht in Echtzeit passieren. Die paar Sekunden Wartezeit sind schneller, als wenn man es selbst errechnet und deutich günstiger, als ein Modell, dass sofort alles per Schnipp liefert. Wählen sie das Modell entsprechend der Anforderungen. Das Größte ist für mich immer nur das Beste … ist keine gute Idee und tatsächlich auch meist sinnlos.

Viertens: Jetzt ist der richtige Zeitpunkt, um zu lernen.

Die Kosten sind heute noch niedrig genug, um Fehler zu machen, ohne dass sie wehtun. Das ist ein Vorteil, den man nutzen sollte – nicht zum Vergeuden, sondern zum Verstehen. Wer jetzt lernt, wie Token-Verbrauch entsteht, wie Modellwahl und Prompt-Design zusammenhängen, wie Batch-Prozesse funktionieren, der hat einen echten Wettbewerbsvorteil, wenn die Preise steigen.
Das umfasst auch und besonders die Ausbildung der Mitarbeitenden. KI muss immer gut durchdacht genutzt werden. Bislang hat sich Bequemlichkeit scheinbar ausgezahlt. Die KI macht das schon. Macht sie auch gerne weiter für sie, aber mit aufgehaltender Hand.
Mitdenken lohnt sich nun noch mehr

Die werden steigen und sie schlussendlich dazu zwingen.


Was das für Unternehmen bedeutet

KI-Inferenz ist kein technisches Randthema. Es ist die Kostenstruktur, auf der jede produktive KI-Nutzung aufbaut – und sie wird in den kommenden Jahren deutlich sichtbarer werden.

Die Phase der 20-Dollar-Flatrates ist ein Einstiegsangebot. Sie lohnt sich für Anbieter als Nutzergewinnung und Abhängigkeiten zu generieren – solange Investorengelder und Enterprise-Verträge die Differenz finanzieren. Aber Unternehmen, die jetzt anfangen, KI ernsthaft einzusetzen, sollten die reale Kostenlogik kennen: jeder Token zählt, jedes Modell hat seinen Preis, und jede Integration wird irgendwann nach ihrer wirtschaftlichen Logik bewertet.

Wer das früh versteht, trifft bessere Entscheidungen – bei der Modellwahl, bei der Prozessgestaltung, bei der Frage, welche KI-Anwendungsfälle sich wirklich lohnen.


Häufige Fragen in diesem Kontext

Müssen wir uns darauf einstellen, dass KI-Nutzung im Unternehmen bald deutlich teurer wird?

Ja, das ist möglich. Viele Unternehmen orientieren sich heute an günstigen Flatrates und sehen deshalb nicht die tatsächlichen Kosten der Rechenleistung im Hintergrund. Je stärker KI in Prozesse, Automatisierungen und Anwendungen eingebunden wird, desto wichtiger werden Verbrauch und Wirtschaftlichkeit.

Worauf sollten KMU achten, bevor sie KI stärker in ihre Prozesse einbauen?

Nicht jede Aufgabe braucht das leistungsfähigste oder teuerste Modell. Unternehmen sollten prüfen, welcher Nutzen tatsächlich entsteht und welche Qualitätsanforderungen erforderlich sind. Wer KI gezielt einsetzt und den Ressourcenverbrauch steuert, kann Kosten deutlich besser kontrollieren.

Warum sind günstige KI-Flatrates kein verlässlicher Maßstab für echte Unternehmenskosten?

Flatrates vermitteln den Eindruck, dass KI nahezu kostenlos verfügbar ist. Tatsächlich entstehen im Hintergrund Kosten für Rechenleistung und Modellnutzung, die bei wachsender Nutzung sichtbar werden. Deshalb sollten Unternehmen ihre KI-Strategie nicht auf heutigen Flatrate-Preisen aufbauen.


Wir beschäftigen uns im Mittelstand-Digital Zentrum Berlin regelmäßig damit, wie KMU KI strategisch und wirtschaftlich sinnvoll einsetzen können – von den ersten Schritten bis zur Prozessintegration. Mehr dazu in unseren Workshops und Veranstaltungen.