Das Internet ist leergesaugt! Die Datenkrise der KI-Entwicklung

TL;DR Zusammenfassung

Das Ende einer Ära

Nach über zwei Jahrzehnten scheinbar unbegrenzter Inhalte steht das Internet als schier unerschöpfliche Datenquelle mit all seinem irrsinnigen Wachstum vor einem paradoxen Problem: Es wächst viel zu langsam und dann noch mit den falschen Contentlieferanten.

Die Warnsignale sind bereits deutlich sichtbar. Was bedeutet das für die KI-Entwicklung und wie geht man es an?

Führende KI-Forscher bei Epoch AI prognostizieren, dass hochwertige Textdaten bereits zwischen 2026 und 2032 vollständig aufgebraucht sein könnten. Diese Entwicklung zwingt die gesamte KI-Industrie zu einem fundamentalen Umdenken – mit weitreichenden Konsequenzen für die Zukunft der künstlichen Intelligenz.

Die Chronologie einer vorhersagbaren Krise

Als das Web noch jung war

Die Grundlagen für das heutige Dilemma wurden bereits in den frühen Tagen des Internets gelegt. Tim Berners-Lee schuf 1989 das World Wide Web ursprünglich als Plattform zum automatischen Informationsaustausch zwischen Wissenschaftlern. Diese Vision einer offenen, durchsuchbaren Informationsquelle bildete das Fundament für alles, was folgen sollte.

Die ersten primitiven Web-Crawler entstanden bereits 1993 mit dem “World Wide Web Wanderer”. Damals ging es noch darum, die schiere Größe des Netzes zu messen. Doch schon mit JumpStation im Dezember 1993 begann die systematische Erfassung und Strukturierung von Webinhalten – der Vorläufer dessen, was heute als Web Scraping für KI-Training bekannt ist.

ImageNet: Der Wendepunkt

Ein entscheidender Wendepunkt kam 2006, als Fei-Fei Li an der University of Illinois eine revolutionäre Erkenntnis hatte. Während ihre Kollegen sich auf bessere Algorithmen konzentrierten, erkannte sie:

“The paradigmatic shift of the ImageNet thinking is that while many people are paying attention to models, we should pay attention to data. Data will redefine how we think about models”“Die paradigmatische Verschiebung des ImageNet-Denkens ist, dass, während viele Menschen auf Modelle achten, wir auf Daten achten sollten. Daten werden neu definieren, wie wir über Modelle denken”.

Li verstand, dass ein Kind einen Hund von jeder beliebigen Katze unterscheiden kann – nicht nur von zwei spezifischen Katzen. Für maschinelles Lernen auf menschlichem Niveau brauchte es Training in der Dimension der realen Welt. Ihr ImageNet-Projekt, das zwischen Juli 2008 und April 2010 von null auf über 11 Millionen kategorisierte Bilder anwuchs, wurde durch die Crowdsourcing-Plattform Amazon Mechanical Turk möglich.

Common Crawl: Die Industrialisierung der Datensammlung

Parallel zu ImageNet entstand 2008 Common Crawl, gegründet von Gil Elbaz, einem ehemaligen Google-Mitarbeiter. Diese Non-Profit-Organisation begann systematisch das gesamte Internet zu archivieren und der Forschungsgemeinschaft kostenlos zur Verfügung zu stellen.

Was mit bescheidenen Anfängen begann, wuchs zu einer gewaltigen Operation heran: Heute erfasst Common Crawl monatlich 3-5 Milliarden Webseiten und produziert dabei etwa 400 Terabyte unkomprimierter Daten. Über die 17-jährige Geschichte hat Common Crawl mehr als 250 Milliarden Webseiten gesammelt. Jeder monatliche Crawl entspricht dem 500-fachen aller Wikipedia-Artikel und ist 4.000-mal größer als der gesamte Text der Wikipedia.

Die erste Warnung: Epoch AI schlägt Alarm

Die wissenschaftliche Gemeinschaft wurde 2022 durch eine bahnbrechende Studie von Pablo Villalobos und seinem Team bei Epoch AI aufgerüttelt. Ihre Analyse mit dem prägnanten Titel “Will we run out of data?” war die erste systematische Untersuchung der Grenzen verfügbarer Trainingsdaten.

Pablo Villalobos erklärte in einem Interview mit heise online: “Die Analogie mit Peak Oil mag dramatisch klingen, ebenso wie die Warnung, dass uns die Daten ausgehen könnten. Dennoch erreicht das Internet seinen Produktionshöhepunkt”. Seine Berechnungen zeigten: Bei der damaligen Wachstumsrate würden KI-Modelle zwischen 2026 und 2032 das gesamte verfügbare menschengemachte Textmaterial des Internets durchkämmt haben.

Die Studie unterschied dabei zwischen verschiedenen Qualitätsstufen:

  • Hochwertige Daten: Wissenschaftliche Artikel, Bücher, qualitativ hochwertige Nachrichtenquellen – erschöpft vor 2026
  • Niedrigwertige Daten: Social Media Posts, Kommentare, unstrukturierte Inhalte – aufgebraucht zwischen 2030-2050

Teven Le Scao von Hugging Face bestätigte die Sorgen: “The researchers on large language models are increasingly concerned that they will run out of this type of data”“Die Forscher bei großen Sprachmodellen sind zunehmend besorgt, dass ihnen diese Art von Daten ausgehen wird”.

Die Industrie reagiert: Der neue Goldrausch

Reddit: Authentizität hat ihren Preis

Als die Datenkrise greifbar wurde, begannen KI-Unternehmen systematisch Deals mit Inhaltsplattformen abzuschließen. Reddit erwies sich dabei als besonders wertvoll. Im Februar 2024 schloss Google einen Vertrag über 60 Millionen Dollar jährlich ab, um auf Reddits API und damit auf Echtzeit-Inhalte zuzugreifen. OpenAI folgte im Mai 2024 mit einem ähnlichen Deal.

Die Attraktivität von Reddit liegt auf der Hand: Anders als viele chaotische Online-Inhalte bietet Reddit Posts von echten Menschen, die authentische Meinungen teilen. Der Inhalt ist thematisch organisiert und durch ein menschliches Bewertungssystem anstatt durch Algorithmen kuratiert. Daten zeigen, dass Reddit häufig von KI-Tools zitiert wird, und das Hinzufügen von “reddit” zu Google-Suchen ist eine gängige Strategie für relevantere Ergebnisse geworden.

Jen Wong, COO von Reddit, erklärte am 31. Juli 2025: “We are in the middle of our data licensing deals and we’re still learning, but what we’ve seen is Reddit data is being highly cited and valued”“Wir sind mitten in unseren Datenlizenzing-Deals und lernen noch, aber was wir gesehen haben ist, dass Reddit-Daten hochzitiert und geschätzt werden”.

Die Expansion: Von News bis Social Media

OpenAI hat seine Datenstrategie erheblich erweitert und Partnerschaften mit großen Medienverlagen wie Axel Springer, Time und Conde Nast geschlossen. Gleichzeitig diskutiert das Unternehmen intern über das Training von GPT-5 mit YouTube-Video-Transkripten.

Meta geht einen anderen Weg und nutzt Beiträge von Facebook und Instagram für das Training seiner Llama-Modelle. Diese Praxis ist kontrovers, da Social Media-Posts oft als qualitativ minderwertig gelten und das Niveau der KI-Ausgaben negativ beeinflussen könnten.

Das Dilemma der synthetischen Daten

Der Teufelskreis: KI trainiert KI

Als Reaktion auf die Datenknappheit experimentierten KI-Unternehmen mit synthetischen Daten – von KI generierten Inhalten als Trainingsmaterial. Anthropic füttert bereits intern generierte Daten in seine Claude-Familie ein, während OpenAI diese Taktik für seine neuesten Modelle erforscht.

Doch diese Strategie birgt fundamentale Probleme. Richard Baraniuk von der Rice University warnte: “The problems arise when this synthetic data training inevitably gets repeated and creates a kind of feedback loop – what we call an autophagic or ‘self-consuming’ loop”“Die Probleme entstehen, wenn dieses synthetische Datentraining unweigerlich wiederholt wird und eine Art Rückkopplungsschleife bildet – was wir eine autophagische oder ‘selbstverzehrende’ Schleife nennen”.

Das digitale Rinderwahnsinn-Phänomen

Baraniuk und sein Team prägten den Begriff “Model Autophagy Disorder” (MAD) – eine bewusste Analogie zur Rinderseuche BSE.

“Mad Cow Disease ist eine neurodegenerative Krankheit, die für Kühe tödlich ist und ein menschliches Äquivalent hat, das durch den Verzehr von infiziertem Fleisch verursacht wird. Ein großer Ausbruch in den 1980er-90er Jahren brachte die Tatsache ins Bewusstsein, dass sich Mad Cow Disease infolge der Praxis des Verfütterns von verarbeiteten Überresten ihrer geschlachteten Artgenossen an Kühe ausbreitete”.

Die Forschungsgruppe identifizierte drei Szenarien des selbstverzehrenden Trainings:

  1. Vollsynthetische Schleife: Aufeinanderfolgende Modellgenerationen werden ausschließlich mit synthetischen Daten aus vorherigen Generationen trainiert
  2. Synthetische Verstärkungsschleife: Training-Datasets kombinieren synthetische Daten mit einem festen Satz realer Daten
  3. Frische-Daten-Schleife: Neue Modelle erhalten eine Mischung aus synthetischen und frischen realen Daten

Die Ergebnisse waren eindeutig: “Progressive iterations of the loops showed that models over time produced increasingly distorted images, the more so the less fresh data they received for training”“Progressive Iterationen der Schleifen zeigten, dass die Modelle im Laufe der Zeit zunehmend verzerrte Bilder produzierten, umso mehr, je weniger frische Daten sie für das Training erhielten”.

Model Collapse: Die wissenschaftliche Definition

Ein internationales Forscherteam um Ilia Shumailov definierte Model Collapse präzise als “a degenerative process affecting generations of learned generative models, where the data they generate end up polluting the training set of the next generation of models”“einen degenerativen Prozess, der Generationen gelernter generativer Modelle betrifft, bei dem die von ihnen generierten Daten das Trainingsset der nächsten Generation verschmutzen”. Dieser Prozess tritt in zwei Phasen auf:

  • Früher Model Collapse: Das Modell beginnt Informationen über die “Schwänze” der Verteilung zu verlieren – hauptsächlich Minderheitsdaten
  • Später Model Collapse: Das Modell verliert einen erheblichen Anteil seiner Leistung, verwechselt Konzepte und büßt den Großteil seiner Varianz ein

Expertenstimmen zur Krise

Die CEO-Riege warnt

Die Führungsebene der KI-Industrie ist sich der Tragweite bewusst. Dario Amodei, CEO von Anthropic, gab eine bemerkenswert offene Einschätzung ab: “Wenn man es sehr naiv betrachtet, sind wir nicht weit davon entfernt, dass uns die Daten ausgehen. Es ist, als hätten wir einfach nicht die Daten, um die Skalierungskurven fortzusetzen”.

Amodei schätzt eine 10-prozentige Chance ein, dass die Skalierung von KI-Systemen aufgrund unzureichender Daten stagnieren könnte.

Sam Altman von OpenAI ging bereits 2023 auf einer MIT-Konferenz davon aus, dass die Ära gigantischer Modelle zu Ende geht: “Ich denke, wir sind am Ende der Ära, in der es diese riesigen, riesigen Modelle geben wird. Und wir werden sie auf andere Weise verbessern”.

Die Forscherperspektive

Pablo Villalobos von Epoch AI blieb auch 2024 bei seiner düsteren Prognose: “Es besteht eine mehr als 50-prozentige Chance, dass die Nachfrage nach hochwertigen Daten das Angebot an verfügbarem Trainingsmaterial bis 2028 übersteigen wird”. Seine Berechnungen basieren auf der Tatsache, dass das Internet schätzungsweise 3.100 Billionen Token enthält und jährlich um etwa 10% wächst, während KI-Trainingsdaten sich mehr als verdoppeln.

Gegenstimmen: Nicht alle sehen schwarz

Nicht alle Experten teilen die pessimistische Sichtweise. Dr. Lance B. Eliot argumentierte in Forbes gegen den “Weltuntergangs-Lärm” um synthetische Daten. Er behauptet, dass viele der dramatischeren Kollapsszenarien auf künstlichen Trainingsbedingungen beruhen, bei denen Systeme vollständig mit ungefilterten, KI-generierten Inhalten ohne menschliche Daten gefüttert werden.

Sammi Koyejo von Stanford University bot eine ähnliche Perspektive: “The concerns about ‘model collapse,’ where AI models degrade when trained on synthetic data from earlier models, have been significantly overblown”“Die Sorgen um ‘Model Collapse’, bei dem KI-Modelle sich verschlechtern, wenn sie auf synthetischen Daten aus früheren Modellen trainiert werden, wurden stark übertrieben”. Er argumentiert, dass die Forschung acht widersprüchliche Definitionen von Model Collapse verwendet und viele katastrophale Szenarien unter realistischen Bedingungen vermeidbar erscheinen.

Die Suche nach Lösungsansätzen

Google DeepMinds Innovation

Google DeepMind-Forscher haben mit “Generative Data Refinement” (GDR) einen innovativen Ansatz entwickelt. Die Methode verwendet vortrainierte generative Modelle, um unbrauchbare Daten umzuschreiben und sie effektiv zu “reinigen”, sodass sie sicher für das Training verwendet werden können.

Minqi Jiang, einer der Forscher des Papers, erklärte: “Many AI labs are leaving usable training data on the table because it’s mixed in with bad data. If there’s a document on the web that contains something deemed unusable, like someone’s phone number or a false fact, labs often throw out the whole thing”“Viele KI-Labs lassen brauchbare Trainingsdaten auf der Strecke, weil sie mit schlechten Daten vermischt sind. Wenn es ein Dokument im Web gibt, das etwas als unbrauchbar Erachtetes enthält, wie jemandes Telefonnummer oder eine falsche Tatsache, verwerfen Labs oft das ganze Ding”.

Die Rückkehr zu den Wurzeln: Menschliche Qualität

Eine andere Strategie ist die bewusste Kuratierung hochwertiger, menschengemachter Inhalte. Unternehmen wie TELUS Digital setzen auf diverse und repräsentative Datensätze, die von einer globalen KI-Community von Mitwirkenden erstellt werden. Diese Ansätze sind kostenintensiver, können aber die Qualitätsprobleme synthetischer Daten umgehen.

Technologische Innovationen

Die Forschung konzentriert sich zunehmend auf Effizienzsteigerungen:

  • Active Learning: KI-Modelle werden trainiert, ihre eigenen Wissenslücken zu identifizieren und spezifische Datenpunkte anzufordern
  • Transfer Learning: Vortrainierte Modelle werden für neue Aufgaben angepasst, wodurch der Bedarf an völlig neuen Datensätzen reduziert wird
  • Few-Shot Learning: Techniken ermöglichen es KI, aus kleineren Datensätzen zu lernen, indem sie sich auf die Extraktion der relevantesten Informationen aus jedem Datenpunkt konzentrieren

Die wirtschaftlichen Auswirkungen

Der Milliardenmarkt für Trainingsdaten

Der AI Training Dataset Market soll von 2,62 Milliarden Dollar im Jahr 2024 auf 18,47 Milliarden Dollar bis 2034 anwachsen. Diese explosive Entwicklung spiegelt den steigenden Wert qualitativ hochwertiger Daten wider. Reddit verhandelt bereits über dynamische Preismodelle, bei denen die Vergütung steigt, je wichtiger ihre Inhalte für KI-Antworten werden.

Compute-Engpässe verstärken das Problem

Parallel zur Datenkrise kämpfen Unternehmen mit Compute-Engpässen. Sam Altman gab im Oktober 2024 zu: “All these models have gotten pretty complex. We’re also facing a lot of limitations and hard decisions about how to divide up our compute across many great ideas”“All diese Modelle sind ziemlich komplex geworden. Wir stehen auch vor vielen Einschränkungen und schweren Entscheidungen darüber, wie wir unsere Rechenleistung auf viele großartige Ideen aufteilen”.

Im Februar 2025 verschärfte sich die Situation weiter: “We’ve grown so much and we have no more GPUs”“Wir sind stark gewachsen und haben keine GPUs mehr”, schrieb Altman. OpenAI plant, Billionen von Dollar in den Aufbau von Rechenzentren zu investieren, um diese Engpässe zu überwinden.

Blick in die Zukunft: Szenarien und Strategien

Das pessimistische Szenario

Richard Baraniuk warnte vor einem düsteren Zukunftsszenario: “A doomsday scenario is that MAD, if left unchecked for many generations, could poison the data quality and diversity of the entire internet”“Ein Weltuntergangsszenario ist, dass MAD, wenn es viele Generationen lang unkontrolliert bleibt, die Datenqualität und -vielfalt des gesamten Internets vergiften könnte”.

In diesem Szenario würde das Internet zunehmend von KI-generierten Inhalten überschwemmt, die als Trainingsdaten für zukünftige Modelle verwendet werden. Diese “digitale Inzucht” könnte zu einer stetig abnehmenden Qualität und Vielfalt von KI-Systemen führen.

Das optimistische Szenario

Andere sehen in der Krise eine Chance für Innovation. Michael Hedderich von Cornell University erklärte: “Based on the historical insight that when a particular limit is reached, like the availability of labeled data, new information sources are found, I could imagine that we would see a similar pattern for AI in the future”“Basierend auf der historischen Erkenntnis, dass, wenn ein bestimmtes Limit erreicht wird, wie die Verfügbarkeit von gelabelten Daten, neue Informationsquellen gefunden werden, könnte ich mir vorstellen, dass wir für die Zukunft ein ähnliches Muster für KI sehen werden”.

Diese Perspektive sieht die Datenkrise als Katalysator für grundlegend neue Ansätze im maschinellen Lernen – möglicherweise Systeme, die weniger auf passive Datenaufnahme und mehr auf aktive Interaktion mit der Umwelt setzen.

Fazit: Ein Wendepunkt für die KI-Entwicklung

Die Datenkrise markiert das Ende einer Ära in der KI-Entwicklung. Die Zeit, in der bessere Ergebnisse hauptsächlich durch mehr Daten und größere Modelle erreicht werden konnten, neigt sich dem Ende zu. Stattdessen erleben wir eine fundamentale Verschiebung hin zu qualitätsorientierteren, effizienteren Ansätzen.

Die nächsten Jahre werden entscheidend dafür sein, ob die KI-Industrie alternative Wege findet, ihre Systeme zu verbessern, oder ob sie in einen Innovationsstillstand gerät. Synthetische Daten, verbesserte Algorithmen und neue Formen der Mensch-Maschine-Kollaboration werden wahrscheinlich die Zukunft bestimmen.

Pablo Villalobos’ nüchterne Einschätzung aus dem Heise-Interview aus 2024 bleibt gültig: “Ultimately, I think we’ll have to expect a transition at some point when AI models have learned most of what the internet can teach them. Then we’ll have to find new sources of knowledge to continue improving the models”“Letztendlich denke ich, wir müssen einen Übergang zu einem bestimmten Zeitpunkt erwarten, wenn KI-Modelle den größten Teil dessen gelernt haben, was das Internet ihnen beibringen kann. Dann müssen wir neue Wissensquellen finden, um die Modelle weiter zu verbessern”.

Die Frage ist nicht, ob dieser Wendepunkt kommen wird – sondern wie die Industrie darauf reagiert. Die Entscheidungen der nächsten Jahre werden bestimmen, ob KI weiterhin exponentiell wächst oder ob wir das Ende des aktuellen Paradigmas erleben.

Solange sollten wir weiter fleißig menschengenerierten Content in das Internet spülen. Haben Sie heute schon gepostet? Die Ki-Zukunft wird es Ihnen danken …


Unternehmen habe es besser, als die großen KI-Tech-Giganten, si verfügen über ihren eigenen Datenschatz. Wie sie diesen heben und durch lokal auf ihren eigenen Servern laufende KI zugänglich und nutzbar machen können, das zeigen wir Ihnen in unseren darauf spezialisierten Workshops. Sprechen Sie uns unverbindlich an KONTAKT.


Weitere Artikel zu diesem Themenfeld

Dieses Thema hat mehr Facetten, als ein einzelner Artikel abbilden kann. Hier sind Beiträge, die verschiedene Aspekte davon vertiefen: