TL;DR Zusammenfassung
Moderne KI-Dienste sammeln nicht mehr nur Klickverhalten und Suchverläufe – sie erfassen unsere Gesichter, Stimmen und Bewegungsmuster. Aus Spieltrieb laden wir Fotos hoch, lassen Videos mit unserem Abbild erstellen oder nutzen Sprachassistenten, ohne zu realisieren: Diese hochsensiblen, biometrischen Daten trainieren Gesichtserkennungssysteme, Stimmklone und autonome Roboter. Was Unternehmen wie OpenAI, Google oder Meta tun, ist in ihren Rechtsräumen – vor allem in den USA – weitgehend legal. Für Europäer mit GDPR-Schutz mag diese Praxis befremdlich wirken, doch auch hier geben 91% der Nutzer ihre Zustimmung, ohne Nutzungsbedingungen zu lesen. Die Entscheidung, diese intimsten Daten preiszugeben, liegt allein bei uns. Niemand zwingt uns, diese Dienste zu nutzen. Dieser Artikel zeigt, welchen Preis wir zahlen, warum das rechtlich meist einwandfrei ist – und warum wir trotzdem bereitwillig „Ja“ sagen. Entscheiden Sie weise.
Der gefährliche Deal, den wir durch Spieltrieb gerne eingehen
Stellen Sie sich vor: Sie laden bei einem KI-Tool ein Foto hoch, um ein professionelles Bewerbungsbild erstellen zu lassen. Kostenlos. Oder Sie tippen einen Text in ChatGPT, um einen komplizierten Sachverhalt im beruflichen oder privaten Kontext verständlich erklärt zu bekommen. Kostenlos. Oder Sie erstellen mit Sora 2 ein Video, in dem Sie selbst die Hauptrolle spielen – fliegend über Manhattan, surfend auf Hawaii, tanzend auf einer Hochzeit, oder wie Sam Altman, in einem Apple-Store das neuste iPhone klauend, beobachtet von den Überwachungskameras. Natürlich nur als KI-generierter Spaß. Kostenlos.
Aber ist es wirklich kostenlos?
Nein. Denn die Währung, mit der wir bezahlen, sind nicht Euro oder Dollar – sondern unsere Daten. Und es geht nicht mehr um Suchanfragen, gemeinsam erarbeitete Texte und Planungen, die viel über uns und unser Leben preisgeben. Das kennen wir von Google, Facebook, Instagram, X, LinkedIn und Co. Jetzt geht es um mehr, es geht um unsere Gesichter, unsere Stimmen, unsere Bewegungsmuster, also noch mehr, als schon um unsere Gedanken, wie sie sich in Texten und Bildern manifestieren. Gesichter, Stimmen, bereitwillig hochgeladen, damit man sich in ungewöhnlichen, spaßigen Situationen sehen kann oder um sich die Kosten und den Aufwand einer Videoaufnahme für das neue Tutorial zu sparen. Alles möglich, nur ein Foto hochladen, Stimme einsprechen und die Tech-Unternehmen können diese legal für ihre Zwecke nutzen. Denn wir haben die AGBs akzeptiert und vergessen, dass es nichts auf der Welt umsonst gibt.
Und das betrifft nicht nur unser privates Leben. Es betrifft auch Unternehmen, in denen Menschen arbeiten.
Das Geschäftsmodell ist nicht neu. Google, Facebook, TikTok – sie alle leben davon, unsere Daten zu sammeln, zu analysieren und zu nutzen, um uns maßgeschneiderte Werbung zu zeigen oder ihre Dienste zu verbessern. Wir kennen das Prinzip: „Wenn das Produkt kostenlos ist, bist du das Produkt.“
Doch mit dem Aufkommen generativer KI hat sich die Dimension fundamental verschoben. Es geht nicht mehr nur um Klickverhalten, Interessen und Vorlieben. Es geht um biometrische Identität. Wdertvolle Daten über den Menschen, menschliches Verhalten, menschliche Umgebungen. Wertvolle Daten für das Training von zukünftigen KI-Systemen, die nicht nur verstehen, was wir wollen – sondern wie wir aussehen, klingen, uns bewegen und denken und vor allem auch unsere Welt verstehen und sich zukünftig mit diesen freien Daten gefüttert, in unserer Welt bewegen und agieren können.
Und wir treffen diese Entscheidung, unsere wertvollsten Daten, das Wissen über uns, unser Denken, unser individuelles Wesen preiszugeben jeden Tag aufs Neue – meist, ohne uns der Tragweite bewusst zu sein oder schon wissend, aber die Verlockung ist zu groß. Was soll denn schon passieren?
Der neue Rohstoff: Biometrische Daten und Verhaltensprofile
Was früher Cookies und Tracking-Pixel waren, sind heute Gesichtsscans, Stimmproben und Verhaltensinteraktionen mit KI-Systemen.
Warum das für KI-Unternehmen so wertvoll ist
KI-Modelle werden durch Daten „trainiert“. Je mehr Daten, desto besser das Modell. Und je spezifischer die Daten, desto präziser die Anwendung.
Beispiele:
- Gesichtsdaten ermöglichen es, Gesichtserkennungssysteme zu verbessern, die in Authentifizierung, Fotoverwaltung oder Marketing eingesetzt werden.
- Stimmproben helfen beim Training von Sprachassistenten, aber auch beim Erstellen täuschend echter Stimmklone.
- Interaktionsmuster mit Chatbots verraten, wie Menschen denken, entscheiden, formulieren – und können genutzt werden, um personalisierte Dienste zu entwickeln.
- Bewegungsprofile (wie wir durch Videos navigieren, welche Gesten wir machen) dienen dem Training von Robotern und autonomen Systemen.
Die AI Ethics Spezialistin Sinéad Bovell hat in ihrem Artikel über OpenAIs neues und wieder mal sehr gehypten KI-Video-Generator Sora 2 genau diesen Punkt auf den Kern gebracht: „Sora 2 ist keine soziale App. Es ist eine Datenpipeline zum Training von Robotern, wie sie die Welt sehen.“
Einblicke und Gespräche dazu während meiner Reise nach San Francisco und Silicon Valley zu Unternehmen der KI-Industrie, haben es bestätigt. Das ist das Wertvollste für diese Unternehmen. Legitim und ethisch korrekt, denn niemand zwingt uns dazu. Die Unternehmen sind aber sehr dankbar, dass uns unser Spieltrieb zu dieser ungeschminkten Einsicht in unser Denken und Leben ermöglicht. Das hat mich zu weiterer Recherche gebracht und das Ergebnis steht in diesem Blogartikel. Ich war schon beunruhigt, ich bin es aber inzwischen noch mehr.
Wir wissen nicht, was wir tun.
Sora 2: Wenn der Spielplatz zum Trainingslager wird
OpenAIs Sora 2 wird als kreative Plattform vermarktet, auf der Nutzer spektakuläre KI-generierte Videos erstellen können – inklusive sich selbst als Hauptfigur. Das klingt nach Spaß. Und das ist es auch. Aber gleichzeitig passiert etwas anderes.
OpenAI bezeichnet Sora wiederholt als „general-purpose world simulator“ und verweist auf „robotic agents“. Was hat eine Social-Media-ähnliche App mit Robotern zu tun?
Alles.
Die unsichtbare Funktion: Training für physische KI
Jede Video-Eingabeaufforderung, jede Anpassung, jedes verworfene oder geteilte Video – all das sind Mikrosignale, die einem KI-Weltmodell beibringen, wie Physik, Beleuchtung und menschliche Bewegung funktionieren.
Konkret bedeutet das:
- Wenn ein Nutzer ein Video ablehnt, weil „Wasser nicht so fließt“ oder „Menschen sich nicht so bewegen“, liefert er dem System wertvolles Feedback über reale physikalische Gesetzmäßigkeiten.
- Diese Erkenntnisse werden direkt in Weltsimulatoren eingespeist – virtuelle Umgebungen, in denen Roboter lernen, ohne physische Konsequenzen.
- Solche Simulatoren sind nur dann nützlich, wenn sie die reale Physik genau abbilden. Nutzer werden zu freiwilligen Qualitätsprüfern.
Was normalerweise Millionen kosten würde – bezahlte Tester, Prompt-Ingenieure, Datenlabeler –, bekommen KI-Unternehmen durch die „unterhaltsame Erfahrung“ der Nutzer. Wie Bovell schreibt: „Sie haben verstärkendes Lernen im großen Maßstab gamifiziert.“
Von Klicks zu biometrischen Profilen: Die Evolution der Datensammlung
Die Harvard-Ökonomin Shoshana Zuboff hat beschrieben, wie Unternehmen wie Google systematisch menschliche Erfahrung in handelbare Verhaltensvorhersagen verwandeln – ein Wirtschaftsmodell, bei dem Unternehmen private menschliche Erfahrungen als Rohmaterial beanspruchen und in Verhaltensdaten übersetzen, die dann in Vorhersageprodukte verwandelt werden.
Was sich verändert hat: Die Tiefe und Intimität der gesammelten Daten.
Früher: Klicks, Suchanfragen, Standorte
Google sammelte, welche Websites wir besuchen, welche Begriffe wir suchen, wo wir uns aufhalten. Daraus wurden Werbeprofile erstellt.
Heute: Gesichter, Stimmen, Denkprozesse
Mit generativer KI verschiebt sich der Fokus:
- Gesichtserkennung wird durch Milliarden von Fotos trainiert, die Nutzer freiwillig hochladen – auf Google Photos, Facebook, Instagram oder in KI-Tools zur Bildbearbeitung.
- Stimmklonierung wird durch Audiodaten perfektioniert, die wir in Sprachassistenten, Podcasts oder Video-Calls hinterlassen.
- Denkprozesse werden erfasst, wenn wir mit ChatGPT oder anderen Chatbots interagieren: Wie formulieren wir Fragen? Welche Themen beschäftigen uns? Wie reagieren wir auf Vorschläge?
Google Photos nutzt eine Technologie namens „Face Groups“, um Gesichter in Fotos zu erkennen. Der Prozess umfasst Gesichtserkennung, Gesichtsausrichtung, Merkmalsextraktion durch Deep-Learning-Modelle und Gesichtserkennung durch Vergleich numerischer Darstellungen.
Wenn Face Groups aktiviert ist, teilen Nutzer Google mit, dass sie möchten, dass das Unternehmen Modelle der in ihren Fotos erscheinenden Gesichter erstellt. Diese Modelle können in einigen Rechtsordnungen als biometrische Daten betrachtet werden.
Deepfakes und Identitätsdiebstahl: Wenn die eigene Identität kopierbar wird
Die freiwillige Bereitstellung von Gesichtern, Stimmen und persönlichen Bildern schafft eine neue Dimension der Verwundbarkeit: Deepfakes und Identitätsdiebstahl.
Voice Cloning: Mit 15 Sekunden zur perfekten Kopie
Mit nur wenigen Sekunden Audio können KI-Stimmklonungsprogramme eine Kopie einer Stimme erstellen, die für das menschliche Ohr praktisch nicht vom Original zu unterscheiden ist. Eine Studie von Consumer Reports aus dem Jahr 2025 ergab, dass Forscher bei vier der sechs getesteten Produkte „leicht“ einen Stimmklon unter Verwendung öffentlich zugänglicher Audioaufnahmen erstellen konnten.
Die Konsequenzen sind real:
Eine kürzlich aufgedeckte Betrugsmasche führte zum Verlust von 25 Millionen US-Dollar, als Cyberkriminelle sich in einem Zoom-Meeting als Finanzvorstand und andere Kollegen eines Unternehmens ausgaben. Von 2023 bis 2024 stiegen Deepfake-gesteuerte „Gesichtsvertauschungs“-Angriffe um 300%.
Die Erosion der Wahrheit
Wenn Videobeweis zunehmend bedeutungslos wird, wenn die Linie zwischen Real und Synthetisch über Erkennbarkeit hinaus verschwimmt, entstehen grundlegende Fragen über die Natur von Realität und Beweis.
Familienfotos, die auf Google Photos oder Facebook hochgeladen werden, können zum Training von Gesichtserkennungssystemen oder zur Erstellung synthetischer Szenen verwendet werden – oft ohne dass die Nutzer sich dessen bewusst sind.
Ist das überhaupt legal? Die rechtliche Landschaft
Die kurze Antwort: Ja, in den meisten Fällen ist es legal – wenn auch nicht immer transparent.
Europa: Die GDPR als Goldstandard
Die GDPR, die im Mai 2018 in Kraft trat, wird weithin als der umfassendste Datenschutzrahmen der Welt angesehen. Sie gilt für jede Organisation, die personenbezogene Daten von EU-Bürgern verarbeitet oder beabsichtigt zu verarbeiten, unabhängig vom Standort.
Die GDPR verlangt:
- Explizite Zustimmung für die Verarbeitung personenbezogener Daten, einschließlich biometrischer Daten.
- Zweckbindung: Daten dürfen nur für spezifische, klar definierte Zwecke gesammelt werden.
- Datenminimierung: Es sollen nur die minimal erforderlichen Daten gesammelt werden.
- Recht auf Vergessenwerden: Nutzer können die Löschung ihrer Daten verlangen.
Die GDPR erlaubt keine breite Zustimmung mehr, die keine ausreichende Rechtsgrundlage für umfassende Datenanalysen bietet.
USA: Ein Flickenteppich aus Einzelregelungen
Die Vereinigten Staaten haben keinen umfassenden bundesweiten Datenschutzrahmen vergleichbar mit der GDPR. Stattdessen gibt es einen Flickenteppich aus branchenspezifischen Bundesgesetzen und einer wachsenden Zahl staatlicher Datenschutzgesetze.
Der wesentliche Unterschied:
- Europa: Opt-in-Modell – Organisationen müssen eine klare Zustimmung einholen, bevor sie Daten sammeln.
- USA: Opt-out-Modell – Datensammlung ist zulässig, es sei denn, der Nutzer widerspricht ausdrücklich.
Die Strafen unter US-Datenschutzgesetzen sind jedoch im Allgemeinen weniger streng als die unter der GDPR.
Die Illusion der Zustimmung: Terms of Service, die niemand liest
Eine Deloitte-Umfrage unter 2.000 Verbrauchern in den USA ergab, dass 91% der Menschen rechtlichen Bedingungen und Servicekonditionen zustimmen, ohne sie zu lesen. Bei jüngeren Menschen im Alter von 18-34 Jahren liegt die Rate sogar bei 97%.
Eine Studie von Jonathan Obar und Anne Oeldorf-Hirsch erstellte eine gefälschte Social-Networking-Website und schrieb Nutzungsbedingungen, die unter anderem enthielten, dass Nutzer ihr erstgeborenes Kind als Zahlung aufgeben. Satte 98% der Teilnehmer stimmten zu.
Die rechtliche Gültigkeit dieser nicht gelesenen Zustimmungen ist umstritten. Es gibt eine wachsende Rechtsprechung, die anerkennt, dass umfangreiche TOS-Clickthroughs problematisch sind – aber sie bleiben in vielen Rechtsräumen wirksam, solange sie formal korrekt präsentiert werden.
Die Verantwortung liegt damit auch bei uns: Wir könnten lesen, fragen, ablehnen. Wir tun es nur selten.
Generative KI und das Copyright-Dilemma
Ein weiteres Thema betrifft nicht nur unsere persönlichen Daten, sondern auch urheberrechtlich geschützte Werke von Künstlern, Schriftstellern und Fotografen.
Das US Copyright Office stellte im Mai 2025 klar, dass das Training von generativen KI-Modellen auf urheberrechtlich geschützten Werken ohne Erlaubnis wahrscheinlich eine Urheberrechtsverletzung darstellt. Der Trainingsprozess selbst verletzt das Vervielfältigungsrecht, da Werke heruntergeladen, konvertiert und kopiert werden.
Das Argument der KI-Unternehmen, dass Training „transformativ“ sei und daher unter „Fair Use“ falle, wurde vom Copyright Office zurückgewiesen.
Künstler, Schriftsteller und Fotografen haben ihre Werke – oft ohne Wissen oder Zustimmung – für das Training von KI-Modellen verwendet gesehen. Diese Werke dienen nun als Trainingsmaterial für kommerzielle KI-Systeme.
Shadow AI: Die unsichtbaren Datenlecks in Unternehmen
Ein neues Phänomen verschärft die Problematik: Shadow AI – die Nutzung nicht autorisierter KI-Tools durch Mitarbeiter, die sensible Unternehmensdaten in öffentliche KI-Systeme einspeisen.
90% der IT-Führungskräfte sind besorgt über Shadow AI, 46% sind „extrem besorgt“. 79% der IT-Führungskräfte berichten, dass ihre Organisation negative Folgen durch Generative AI erlebt hat. 54% der Mitarbeiter geben offen zu, dass sie KI-Tools auch ohne Genehmigung nutzen würden.
Im Gegensatz zu traditioneller „Shadow IT“ geht es bei Shadow AI nicht nur um Datenzugriff, sondern um Inferenz und Training: Daten, die in ChatGPT oder ähnliche Systeme eingegeben werden, können zum Training der Modelle verwendet werden – sofern nicht explizit opt-out gewählt wurde.
Beispiel Samsung: Ingenieure haben versehentlich proprietären Chip-Design-Code und interne Meeting-Notizen in ChatGPT eingefügt, was Samsung dazu veranlasste, die Nutzung öffentlicher generativer KI-Tools vorübergehend zu verbieten.
Das asymmetrische Informationsverhältnis: Wissen versus Handeln
Hier liegt ein zentraler Punkt: Die meisten Nutzer wissen theoretisch, dass ihre Daten gesammelt werden. Sie handeln nur nicht danach.
Warum?
- Bequemlichkeit: Die Dienste sind einfach zu gut, zu nützlich, zu verlockend.
- Unmittelbarkeit: Der Nutzen ist sofort spürbar, die Konsequenzen liegen in der Zukunft oder bleiben unsichtbar.
- Komplexität: Die Datenschutzerklärungen sind lang, juristisch formuliert, schwer verständlich.
- Alternativlosigkeit: Viele Dienste haben eine faktische Monopolstellung. Wer sie nicht nutzt, ist ausgeschlossen.
Das „Privacy Paradox“ beschreibt genau dieses Phänomen: Menschen sagen, Datenschutz sei ihnen wichtig – handeln aber nicht entsprechend.
Die Verantwortung liegt auf beiden Seiten: Unternehmen könnten transparenter sein. Nutzer könnten bewusster entscheiden. Beides geschieht zu selten.
Fazit: Die Entscheidung liegt bei uns – wenn wir sie bewusst treffen
„Kostenlos“ bedeutet nicht „umsonst“. Was wir für KI-Dienste bezahlen, ist weit mehr als nur Aufmerksamkeit oder Klickverhalten. Wir bezahlen mit unserer biometrischen Identität, unseren Denkmustern, unseren intimsten Momenten.
Die rechtliche Situation ist in vielen Fällen klar: Was die Unternehmen tun, ist legal. Sie informieren über die Datennutzung, sie bieten Opt-out-Möglichkeiten, sie halten sich an geltende Gesetze – zumindest in ihren jeweiligen Rechtsräumen.
Die fundamentale Frage ist nicht, ob die Unternehmen rechtlich handeln. Die Frage ist: Treffen wir unsere Entscheidungen bewusst?
- Lesen wir die Datenschutzerklärungen? Nein.
- Verstehen wir, was mit unseren Daten passiert? Selten.
- Nutzen wir die Dienste trotzdem? Ja.
Das ist keine Anklage. Das ist Realität.
Die Gefahren sind real: von Verhaltensmanipulation über politische Beeinflussung bis hin zu Identitätsdiebstahl durch Deepfakes. Die Technologie entwickelt sich schneller, als wir ihre Implikationen verstehen können.
Was bleibt, ist die Notwendigkeit einer breiten gesellschaftlichen Debatte über die Zukunft digitaler Dienste. Müssen „kostenlose“ Plattformen zwangsläufig auf umfassender Datensammlung basieren? Sind echte Alternativen möglich, die Datenschutz respektieren und dennoch funktionieren? Und wie können wir verhindern, dass die Informationsasymmetrie zwischen datensammelnden Konzernen und Einzelnen zu einer fundamentalen Bedrohung für Autonomie wird?
Die Antworten auf diese Fragen werden entscheiden, ob wir in einer Zukunft leben, in der Technologie menschliche Freiheit erweitert – oder in einer, in der jede Erfahrung zum Rohstoff für Systeme wird, die wir nicht mehr vollständig verstehen.
Es gibt nichts geschenkt. Niemals. Nirgendwo.
Die Frage ist nur: Sind wir bereit, den Preis bewusst zu bezahlen – oder zahlen wir ihn, ohne es wirklich zu verstehen?
Wer mehr darüber erfahren möchte, welche konkreten Techniken Unternehmen einsetzen, um Daten zu sammeln, und wie man sich schützen kann, findet hier einen weiterführenden Artikel, der tiefer in die Vorgehensweisen eintaucht und praktische Hinweise gibt.
Weitere Artikel zu diesem Themenfeld
Dieses Thema hat mehr Facetten, als ein einzelner Artikel abbilden kann. Hier sind Beiträge, die verschiedene Aspekte davon vertiefen:
