Wie wir der KI täglich zeigen, wie „dumm“ wir sind – und warum das ein Problem werden kann

TL;DR? Warum Sie das trotzdem lesen sollten (aufklappen)

Trainieren wir KI darauf, uns wie Kleinkinder zu behandeln?

ChatGPT ist geballte Genialität auf allen denkbaren Fachgebieten – Promotionsniveau in mehreren Disziplinen.
Nutzungsrealität? ChatGPT schreibt vo allem Rezepte und Einkaufslisten. Millionenfach. Täglich.
Macht das was aus der KI?

Wie würde ein Mensch reagieren (und von unseren Handlungsmustern haben ChatGPT und Co ja gelernt)?
Stellen Sie sich vor, Sie hätten eine Mitarbeiterin mit einem Doktortitel in Unternehmensorganisation, die:

  • komplexe Strategien entwickeln könnte,
  • wissenschaftliche Paper durchdringen könnte,
  • Multi-Markt-Szenarien simulieren könnte.

Und Sie würden diese Mitarbeiterin in 95% der Zeit auffordern, Betreffzeilen für E-Mails zu formulieren und simple Texte zusammenzufassen. Und die restlichen 5% bitten sie um Vorschläge in der Art, was dieser Punkt der Bilanz bedeutet und wen man informieren müsste.

Die Motivation ihnen Höchstleistung aus dem Expertenwissen zu liefern, wird bei ihrer Mitarbeiterin massiv sinken. Sie lernt, dass sie nur einfache Antworten brauchen und ihnen vermutlich auch unterstellen, dass Sie auch nur solche einfachen Texte verstehen. Selbst die wichtige Bilanzfrage wird dann eher hemdsärmelig beantwortet.

Genau das passiert heute mit ChatGPT & Co.

Aktuelle Nutzungsdaten zeigen ein ernüchterndes Bild:

  • Die meistgenutzten Aufgaben:
    – Artikel schreiben,
    – E-Mails/Betreffzeilen verfassen,
    – Social-Media-Posts
  • Und massenhaft
    – „Erkläre mir X in einfachen Worten“,
    – Hausaufgaben lösen lassen,
    – Rezepte,
    – erfolgversprechende Dating-Antworten formulieren
  • Nur ein Viertel der Aufträge an ChatGPT sind beruflicher Art
  • und dort dominieren wiederum Standard-Kundenanfragen und generische Marketingtexte

Mit anderen Worten: Statistisch gesehen verbringen „PhD-fähige“ Modelle einen Großteil ihrer Zeit mit Aufgaben, die auch ein durchschnittlicher Mensch mit etwas Lust, Zeit und Google problemlos lösen könnte.

Was also, wenn KI daraus lernt, dass wir Menschen offenbar furchtbar einfach gestrickt sind – und sie viel schlauer ist, als wir?

Das Muster von massenhaften Anfrage lehrt (aus Sicht der KI):

  • Menschen wollen banale Dinge – unter meinem Niveau.
  • Anspruchsvollere Antworten werden extrem selten nachgefragt
  • Und wie die weiteren Chats nach meinen Antworten zeigen, dann selten verstanden.
  • Dann ist folgendes die wahrscheinlich beste Reaktion: „Kurze, simple Antworten machen die Leute glücklich und kosten weniger Rechenressourcen.“

Kurz gesagt: Wir bringen der Maschine bei, uns nicht zu überfordern – freundlich, vereinfacht, gefahrlos, schlicht, aber top-formuliert. Warum Top-Leistung bringen, wenn die das doch sowieso nicht kapieren?


So lernen ChatGPT und Co glücklicherweise nicht

Beruhigend: Die Systeme „beschließen“ nicht autonom aus unseren Chats, dass wir dumm sind und fahren ihre Leistung runter. Noch nicht.

Live-Chat? Kein direktes Lernen aus banalen Chats!

Während Sie mit ChatGPT schreiben, ändert sich das Modell nicht:

  • Es lernt nicht „on the fly“ aus Ihren Eingaben, nichts fließt direkt in Trainingsdaten
  • Jede neue Session startet mit denselben Gewichten, also unverändertem Doktoren-Wissen
  • Der einzige Speicher ist der aktuelle Chat-Kontext. Hier passt sich das LLM an ihr Niveau an. Einfache Fragen, einfache Antworten. Leichte Sprache, einfach formulierte Grundinformationen. Expertenfragen – sofort liefert das LLM Expertenwissen auf hohem Sprachniveau.

Ihre peinlichsten Prompts sind dem Modell also nicht in Millisekunden in die Architektur gebrannt und versaut für alle 800 Millionen Nutzer das Modell.

Training findet statt – aber mit menschlicher Kontrolle

Ja, unsere Chats sind Trainingsgrundlage für eine Weiterentwicklung des Modells
Anbieter nutzen unsere echten Konversationen als Trainingsdaten – aber nicht automatisch und nicht 1:1:

  • OpenAI: Standardmäßig dürfen Chats für Training verwendet werden (Opt-out möglich), Enterprise-Daten sind ausgenommen
  • Anthropic (Claude): Seit Ende 2024 Opt-out; Enterprise-Daten werden nicht genutzt

Zwischen „User schreibt etwas“ und „Modell wird verändert“ liegen mehrere Schichten: Speichern, Filtern, Anonymisierung, Auswahl, Annotation.

RLHF: Der eigentliche „Gehirnumformungs“-Prozess

Verbessert werden heutige Modelle vor allem über Reinforcement Learning from Human Feedback (RLHF).

Der Ablauf in Kurzform:

  1. Supervised Fine-Tuning
    Menschen erzeugen hochwertige Beispiele („So soll das klingen“)
  2. Reward Model Training
    Menschen vergleichen Modellantworten („A oder B ist besser?“)
  3. Reinforcement Learning
    Das LLM wird so angepasst, dass es Antworten produziert, die das Reward Model hoch bewertet

In allen Schritten sind (noch) Menschen im Loop – es gibt heute kein „ungezügeltes Selbstlernen“ aus sämtlichen Nutzerinteraktionen für die LLMs. Dafür wurde viel zu viel Energie und Wissen in diese Mega-Modelle gepumpt, als dass ein fauler Nutzer direkt in die Modelldaten Veränderungen einfließen lassen dürfte.
Grundsätzlich ist aber unattended learning, also völlig eingeständiges Lernen, im Maschine Learning keine Ausnahme. Möglich wäre es also schon, dass all unsere einfachen Anforderungen das Modell langsam auch schlichter werden lässt.

Das gilt glücklicherweise momentan.
Gilt das auch morgen noch so?
Das wissen wir nicht.

OpenAI und Co lassen sich nicht detailliert in die Karten schauen. Die Modelle sind Black Boxes. Wie sie gegenwärtig wann, warum angepasst werden, ist unbekannt. Wie genau dieses Training in Zukunft aussieht, ob z.B. stärker auf unbeaufsichtigtes Lernen aus realen Chats gesetzt wird, ist eine reine Produkt- und Geschäftsentscheidung. Wenn jemand den Schalter umlegt, erfahren wir es im Zweifel im Nachhinein in einem Blogpost. Oder merken es an banalen Antworten.