Die 1,5-Milliarden-Dollar-Einigung: Anthropic und das Ende der kostenlosen KI-Trainingsdaten

TL;DR Zusammenfassung

Sie wussten es villeicht scho: das Internet hat seine dunklen und illegalen Seiten. Und das ist für die KI-Konzerne inzwischen ein echtes Problem

Wir sprechen nicht von Anleitungen, wie man Bomben baut. Das haben die Konzerne bereits recht gut gefiltert. Es geht um hochwertigen Wissensquellen, die es so gar nicht geben dürfte..

Haben sie sich schon mal von ChatGPT, Claude und Co den Inhalt eines Buches zusammenfassen lassen? Das klappt meist sehr gut. Aber woher haben die Bots eigentlich die genauen Inhalte?
Aus dem Internet, von Quellen, die illegal sind.

Die KI-Firma Anthropic zahlt 1,5 Milliarden Dollar zur Beilegung einer historischen Urheberrechtsklage – die größte Entschädigung in der Geschichte des Urheberrechts. Der Fall zeigt ein fundamentales Problem der KI-Entwicklung auf: Woher sollen die riesigen Datenmengen kommen, die Large Language Models zum Lernen brauchen? Die Antwort war bisher: Man sammelt alles, was digital verfügbar ist – oft ohne Rücksicht auf Urheberrechte. Doch das ändert sich jetzt grundlegend.

Millionen raubkopierter Bücher aus dem Internet als KI-Futter

Was Anthropic, das Unternehmen hinter dem KI-Chatbot Claude, getan hat, bringt das Dilemma der KI-Branche auf den Punkt: Um ihren KI-Assistenten Claude zu trainieren, lud das Unternehmen die Inhalte aus dem Internet inklusive über 7 Millionen raubkopierte Bücher aus berüchtigten Piraterie-Plattformen wie Library Genesis und Pirate Library Mirror herunter.

Diese sogenannten Schattenbibliotheken sind im Internet als Sammelstellen für urheberrechtlich geschützte Werke bekannt. Millionen von Büchern werden dort ohne Erlaubnis der Autoren oder Verlage zum Download angeboten. Für Nutzer mag das verlockend sein – für Urheber bedeutet es entgangene Einnahmen und Kontrollverlust über ihre Werke.

Die Kläger: Drei Autoren gegen einen Milliarden-Konzern

Die Autoren Andrea Bartz, Charles Graeber und Kirk Wallace Johnson hatten die Sammelklage im vergangenen Jahr gegen Anthropic eingereicht. Sie warfen dem von Amazon und Alphabet unterstützten Unternehmen vor, ohne Erlaubnis oder Vergütung urheberrechtlich geschützte Bücher genutzt zu haben, um seinem KI-Assistenten Claude das Beantworten menschlicher Anfragen beizubringen.

Was diese drei Autoren besonders macht: Sie vertraten potenziell Hunderttausende weitere Schriftsteller in einer Sammelklage, die Anthropic Hunderte von Milliarden Dollar hätte kosten können.

Das Unternehmen: Wer ist Anthropic?

Von OpenAI-Rebellen zum Milliarden-Startup

Anthropic wurde 2021 von sieben ehemaligen OpenAI-Mitarbeitern gegründet, darunter die Geschwister Daniela Amodei und Dario Amodei, wobei letzterer als Vice President of Research bei OpenAI tätig war. Der Grund für den Ausstieg aus OpenAI? Grundlegende Meinungsverschiedenheiten über die kommerzielle Ausrichtung und die Sicherheitsphilosophie von KI-Entwicklung.

Anthropic ist als Public Benefit Corporation (PBC) strukturiert und erforscht und entwickelt KI, um „ihre Sicherheitseigenschaften an der technologischen Grenze zu studieren“ und diese Forschung zu nutzen, um sichere Modelle für die Öffentlichkeit bereitzustellen.

Finanzielle Unterstützung der Tech-Giganten

Das Startup hat massive Investitionen von den größten Technologiekonzernen erhalten:

  • Amazon kündigte im September 2023 eine Investition von bis zu 4 Milliarden Dollar an, im November 2024 folgte eine weitere Investition von 4 Milliarden Dollar (was die Gesamtinvestition auf 8 Milliarden Dollar brachte)
  • Google gab im darauf folgenden Monat eine Verpflichtung von 2 Milliarden Dollar bekannt

Seit September 2025 ist Anthropic das drittwertvollste private Unternehmen weltweit (nach SpaceX und ByteDance) mit einer Bewertung von über 183 Milliarden Dollar.

Die wegweisende Gerichtsentscheidung

Richter Alsup und sein differenziertes Urteil

Der zuständige US-Bezirksrichter William Alsup in San Francisco traf im Juni eine differenzierte Vorentscheidung: Das Gericht entschied, dass das Training von KI-Modellen mit legal erworbenen und eingescannten Büchern grundsätzlich als „Fair Use“ gelten kann.

Die Begründung des Richters war bemerkenswert: AI-Training sei „außerordentlich transformativ“. Der Vergleich mit einem lernenden Menschen sei treffend – ein Sprachmodell, das Bücher analysiert, tut dies nicht, um sie zu ersetzen, sondern um etwas Neues daraus zu schaffen.

Aber: Piraterie bleibt Piraterie

Doch der Richter zog eine klare Linie: Er stellte fest, dass das Unternehmen die Rechte der Autoren verletzte, indem es mehr als sieben Millionen raubkopierte Bücher in einer „zentralen Bibliothek“ speicherte.

Das Gericht identifizierte einen kritischen Punkt in der Herkunft der verwendeten Inhalte. Anthropic hatte argumentiert, dass es irrelevant sei, ob die Bücher aus legalen oder illegalen Quellen stammten. Der Richter widersprach deutlich: Die bewusste Beschaffung von Raubkopien könne in keiner Weise durch Fair Use gerechtfertigt werden – insbesondere wenn legale Alternativen verfügbar seien.

Das „Fair Use“-Dilemma: Was ist erlaubt?

Die Vier-Faktoren-Regel

Die „Fair Use„-Doktrin im US-amerikanischen Urheberrecht erlaubt die eingeschränkte Nutzung urheberrechtlich geschützten Materials ohne Genehmigung. Gerichte wenden einen flexiblen Vier-Faktoren-Test an, um diese Bestimmung zu treffen, wobei oft der Fokus darauf liegt, ob das neue Werk „transformativ“ ist – eine Schlüsselfrage im Kontext des Trainings von KI-Modellen mit vorhandenen Daten.

Anthropics kreative Lösung: Bücher kaufen und zerstören

Das Unternehmen fand einen bemerkenswerten Ausweg aus dem Lizenz-Dilemma: Die KI-Firma Anthropic kaufte gebrauchte gedruckte Bücher, schnitt Millionen von gedruckten Büchern aus ihren Bindungen heraus, scannte sie in digitale Dateien und entsorgte die Originale, nur um die KI zu trainieren.

Im Februar 2024 stellte Anthropic den ehemaligen Google Books-Leiter für Partnerschaften, Tom Turvey, ein und beauftragte ihn mit der Beschaffung „aller Bücher der Welt“. Das Unternehmen begann dann mit der Nutzung des destruktiven Buchscannens zur Digitalisierung von „Millionen“ von Büchern für das Training von Claude.

Das Unternehmen gab Berichten zufolge „viele Millionen Dollar“ für den Kauf und das Scannen aus und kaufte oft gebrauchte Bücher in großen Mengen.

Die historische 1,5-Milliarden-Dollar-Einigung

Die Eckpunkte des Vergleichs

„Sollte die Vereinbarung genehmigt werden, wäre dieser wegweisende Vergleich die größte öffentlich bekannt gewordene Entschädigung im Urheberrecht in der Geschichte“, erklärten die Kläger in dem Antrag. Die Summe sei höher als bei jeder anderen Sammelklage oder jedem einzelnen bis zum Urteil ausgefochtenen Fall im Urheberrecht.

Die Details der Einigung:

  • Mindestens 1,5 Milliarden Dollar (1,3 Milliarden Euro) in einen Entschädigungsfonds für Autoren, Rechteinhaber und Verlage
  • Durch den Vergleich sind rund 500.000 Bücher abgedeckt, was rund 3000 Dollar pro Buch entspricht – das Vierfache des gesetzlichen Mindestschadenersatzes nach US-Urheberrecht
  • Die Bedingungen der 1,5-Milliarden-Dollar-Einigung verlangen von Anthropic, jede Kopie der raubkopierten Bücher zu zerstören, um zu verhindern, dass es weiterhin von unbefugtem Material profitiert

Das vermiedene „Doomsday“-Szenario

Mit dem Vergleich wird ein für Dezember angesetzter Prozess vermieden. In diesem hätte die Höhe des Schadenersatzes für die mutmaßliche Piraterie festgelegt werden sollen, der sich auf Hunderte von Milliarden Dollar hätte belaufen können.

Gemäß dem föderalen Urheberrecht reichen die gesetzlichen Schadenersatzforderungen von 750 US-Dollar bis 30.000 US-Dollar pro Werk bei einer Standardverletzung und steigen bei vorsätzlichen Verstößen auf 150.000 US-Dollar – angewendet auf Millionen von Werken, was ein potenzielles Risiko von Hunderten von Millionen oder mehr schafft.

Bei 500.000 Büchern eine existenzbedrohende Summe von 75 Milliarden Dollar. Vor diesem Hintergrund erscheinen die 1,5 Milliarden Dollar – etwa 3.000 Dollar pro Werk – fast wie ein Schnäppchen.

Das grundlegende Problem: Woher kommen die Daten für KI?

Der unstillbare Datenhunger

KI-Modelle wie Claude, ChatGPT oder Gemini benötigen riesige Mengen an Textdaten, um zu lernen, menschenähnliche Antworten zu generieren. Diese Daten stammen aus verschiedenen Quellen:

  • Öffentlich zugängliche Webseiten
  • Digitale Bibliotheken und Archive
  • Bücher, Artikel und andere Publikationen
  • Soziale Medien und Foren

Das „Alles sammeln“-Problem

Die Vorwürfe ähneln Dutzenden anderer Klagen von Autoren, Nachrichtenagenturen und bildenden Künstlern. Die beklagten Unternehmen berufen sich auf die „Fair Use“-Doktrin des US-Urheberrechts. Diese erlaubt die eingeschränkte Nutzung von geschütztem Material zur Schaffung neuer, umgestalteter Inhalte.

Ein Großteil der Trainingsdaten stammt aus dem Common Crawl, einem öffentlich verfügbaren Archiv des Internets. Dieses enthält jedoch auch urheberrechtlich geschützte Inhalte, die ohne Genehmigung der Rechteinhaber gesammelt wurden.

Die Branche unter Druck: Eine Welle von Klagen

Mehr als 40 laufende Verfahren

Die rechtlichen Auseinandersetzungen rund um den Einsatz urheberrechtlich geschützter Werke zum Training von KI-Modellen spitzen sich zu. Nachdem das US-amerikanische KI-Unternehmen Anthropic einer milliardenschweren Einigung zugestimmt hat, sieht sich nun auch Apple mit einer ähnlichen Klage konfrontiert.

Der Anthropic-Fall ist nur die Spitze eines Eisbergs. Über 40 ähnliche Klagen sind derzeit in den USA anhängig, darunter prominente Fälle:

  • New York Times vs. OpenAI/Microsoft: Die renommierte Tageszeitung verklagt die ChatGPT-Macher wegen der unerlaubten Nutzung von Millionen Artikeln
  • Autoren vs. Meta: Prominente Schriftsteller klagen gegen Facebook-Mutter Meta wegen der Nutzung ihrer Bücher für das LLaMA-Modell
  • Musikverlage vs. Anthropic: Verlage werfen Anthropic systematische Urheberrechts- und Markenrechtsverletzungen vor

Internationale Dimensionen

Der Rechtsstreit hat auch internationale Auswirkungen:

  • Kanada: Erste Urheberrechtsklage dieser Art gegen KI-Unternehmen durch kanadische Nachrichtenverlage
  • Indien: Erste Klage dieser Art am Delhi High Court

Was bedeutet das für die Zukunft der KI?

Kostenexplosion für KI-Entwicklung

Der Vergleich sendet aber auch ein Signal an die gesamte Branche: Die Zeiten des unregulierten Datensammelns für KI-Training könnten vorbei sein.

Die Anthropic-Einigung könnte zu einer fundamentalen Veränderung der KI-Entwicklungskosten führen:

  • Lizenzgebühren: KI-Unternehmen müssen künftig möglicherweise Milliarden für Lizenzvereinbarungen zahlen
  • Compliance-Kosten: Aufwendige Überprüfung der Rechtmäßigkeit von Trainingsdaten
  • Versicherungen: Neue Versicherungsprodukte gegen Urheberrechtsklagen

Neue Geschäftsmodelle entstehen

Die Kläger hoffen, dass die Einigung mit Anthropic der Branche klarmacht, dass die Nutzung illegal beschaffter Inhalte Konsequenzen hat – sowohl finanzieller als auch rechtlicher Natur.

Gleichzeitig entstehen neue Märkte:

  • Lizenzierte Trainingsdaten: Verlage und Autoren können ihre Werke aktiv vermarkten
  • KI-Partnerschaften: Medienunternehmen schließen direkte Deals mit KI-Firmen ab
  • Spezialisierte Datensätze: Anbieter kuratierter, rechtlich einwandfreier Trainingsdaten

Marktkonzentration droht

Die hohen Kosten könnten zu einer weiteren Konzentration im KI-Markt führen, da nur finanzkräftige Unternehmen wie Google, Amazon oder Microsoft die notwendigen Lizenzgebühren aufbringen können.

Stimmen zur Einigung

Anwälte der Kläger

„Diese historische Einigung übertrifft jede andere bekannte Urheberrechts-Entschädigung“, sagte der Anwalt der Kläger, Justin Nelson. „Es ist die erste dieser Art im Zeitalter der Künstlichen Intelligenz“.

Anthropics Position

Anthropic sagte, der Deal beinhalte kein Schuldgeständnis, sondern dass man ohne die Unsicherheit eines langwierigen Prozesses vorankommen wolle. Die stellvertretende Hauptanwältin des Unternehmens, Aparna Sridhar, erklärte, dass Anthropic weiterhin der Entwicklung sicherer, vertrauenswürdiger und menschenfreundlicher KI verpflichtet sei.

Experten-Einschätzungen

Professor Shubha Ghosh von der Syracuse University College of Law, der nicht an dem Fall beteiligt ist, sagte der Vergleich könne „enorme“ Auswirkungen auf weitere Verfahren gegen KI-Unternehmen haben. „Die Details des Vergleichs und künftige Rechtsstreitigkeiten über die Bedingungen werden entscheidend sein“.

Technische Lösungsansätze für die Zukunft

Innovation aus der Not

Die KI-Branche entwickelt neue Ansätze, um das Urheberrechtsproblem zu umgehen:

  • Synthetic Data: Künstlich generierte Trainingsdaten ohne Urheberrechtsprobleme
  • Federated Learning: Dezentrale Trainingsverfahren ohne zentrale Datenspeicherung
  • Privacy-Preserving AI: Techniken, die Trainingsdaten anonymisieren oder verschlüsseln

Neue Standards entstehen

Der Vergleich resultiert nicht nur in einer rechtlichen Lösung. Er signalisiert das Aufkommen dessen, was Branchenanalysten als grundlegende Neubepreisung der KI-Entwicklung bezeichnen, bei der die Sicherstellung einer sauberen Datenherkunft für das Überleben eines Unternehmens ebenso entscheidend wird wie die Recheneffizienz selbst.

Fazit: Der Wendepunkt ist erreicht

Die Anthropic-Einigung markiert einen historischen Wendepunkt im Verhältnis zwischen Künstlicher Intelligenz und Urheberrecht. Die 1,5-Milliarden-Dollar-Zahlung ist nicht nur die größte Urheberrechtsentschädigung der Geschichte, sondern auch ein klares Signal an die gesamte Branche.

Was Entscheider wissen müssen:

  1. Die Zeit der kostenlosen Daten ist vorbei: KI-Unternehmen müssen künftig mit erheblichen Lizenzkosten rechnen
  2. Rechtliche Risiken steigen massiv: Urheberrechtsverletzungen können existenzbedrohend werden
  3. Neue Märkte entstehen: Content-Besitzer können ihre Werke aktiv vermarkten
  4. Innovation wird teurer: Nur gut finanzierte Unternehmen können sich die Entwicklung fortgeschrittener KI leisten

Der Blick nach vorn

Experten sagen, dass die Vereinbarung das Unternehmen nicht vor neuen Klagen schützt. Autoren könnten immer noch klagen, wenn das Claude-System Ausgaben generiert, die urheberrechtlich geschützte Passagen reproduzieren oder ihre Werke verletzen.

Die Zukunft der KI-Entwicklung wird davon abhängen, ob die Branche tragfähige Lösungen für das Spannungsfeld zwischen Innovation und Urheberrecht findet. Der Anthropic-Vergleich ist dabei nur der Anfang einer längeren Auseinandersetzung um die Regeln des digitalen Zeitalters.

Die Botschaft ist klar: Wer KI entwickeln will, muss lernen, für Inhalte zu bezahlen. Die Zeit des digitalen Wilden Westens ist vorbei.