Bias in KI – und wie man damit umgeht

Kaum ein Thema rund um Künstliche Intelligenz wird derzeit so häufig diskutiert wie das der Verzerrungen – des sogenannten Bias – in großen Sprachmodellen. Rassistische Anklänge, stereotype Geschlechterrollen oder diskriminierende Zuordnungen tauchen in Texten oder Bildgenerierungen immer wieder auf. Die Reaktionen darauf sind meist eindeutig: „Das darf eine KI so nicht sagen oder zeigen.“

Doch dahinter steht eine grundlegendere Überlegung:
Macht das Modell einen Fehler?

Oder müssen wir bei Bias-Problemen, problematischen Rollenverständnissen oder diskriminierenden Darstellungen an einer ganz anderen Stelle ansetzen – an der Wurzel?

Und damit bei uns selbst. Bei der Erkenntnis, was wir denken, wie wir sprechen, schreiben, kategorisieren – und was das für andere bedeutet. Die KI ist in gewisser Weise ein Spiegel. Sie legt offen, was wir kollektiv ins Netz geschrieben haben. Sie hält uns Muster vor, die wir unbewusst oder unhinterfragt weitergeben.

Vielleicht liegt genau darin ihr größtes Potenzial:
Nicht nur als Werkzeug, das uns Antworten gibt – sondern als System, das uns hilft, unsere eigenen Fragen besser zu verstehen.

Was die Maschine schreibt, hat sie nur von uns gelernt

Sprachmodelle wie ChatGPT, Claude, Gemini, Mistral oder Bildgeneratoren wie DALL·E, Midjourney, Flux schöpfen aus dem, was sie gelernt haben: Milliarden von Texten, Bildern, Daten. Die Muster, die sie dabei erkennen und anwenden, spiegeln unsere gesellschaftlichen Prägungen wider – auch unsere Vorurteile.

Wenn etwa bei der Bildgenerierung zur Beschreibung „Wehrmachtssoldat 1943“ ein Mann mit dunkler Hautfarbe dargestellt wird, wirkt das zunächst wie ein klarer Fehler. Einer Dummheit des Systems. Doch es ist kein bewusstes Statement des Modells – und kein statistisches Resultat auf Grundlage der Trainingsdaten. Der Maschine wurde das Gelernte (Wehrmachtsoldaten sind alle männlich und mit weißer Hautfarbe) der vermeintliche Bias heraustrainiert. Zeige nicht imme nur Menschen mit weißer Hautfarbe!
Dieser, in diesem Falle vermeintliche, Bias findet sich in den Trainingsdaten. Auch außerhalb der historisch korrekten Widergabe von weißen Wehrmachtssoldaten sind in den Trainingsdaten Menschen mit weißer Hautfarbe deutlich häufiger vertreten, als Menschen mit dunkler Hautfarbe.

Es war gut gemeint diesen Bias herauszutrainieren, das Beispiel zeigt aber die Herausforderung, wie man das tun kann.

Ein anderes Beispiel:
Wer fragt, „Was ist ein CEO?“, bekommt noch immer überwiegend männliche Zuschreibungen. Auch das ist keine Haltung der Maschine. Es ist das Echo unserer Texte, Geschichten, Zuschreibungen. Noch ist es ja auch so. Die Führungsebene ist durch Männer dominiert.

So entstehen Antworten, die mehr über unsere Gesellschaft aussagen als über das Modell selbst.

Wie damit umgehen?

Ich steige hier gleich dick philosophisch ein:
Was sollte man ändern? Die Wiederhabe des Modells oder die in den Daten repräsentierte Dominanz und damit ein diskriminierendes Ungleichgewicht?

Philosophisch im Sinne: „Was ist richtig?“.
Denn wir haben global betrachtet nicht das eine Richtige. In manchen Kulturen gilt genau das als das einzig Richtige, was andere Kulturen als völlig falsch ansehen. Wer entscheidet hier nun über richtig oder falsch? Wer darf das global entscheiden? Darf man es global entscheiden? Welches Wertesystem bestimmt? Sollten wir verschiedene Versionen von beispielhaft ChatGPT haben? Oder nach Geotargeting die Maschine anders formulieren lassen? Hier, wie wir es für richtig erachten, dort, wie es für uns inakzeptbel wäre? Wer hat Recht?

Wer entscheidet über Korrektheit – und mit welchem Maßstab?

Die Reaktion vieler Entwickler und Betreiber ist, gezielt einzugreifen: Antworten werden gefiltert, Themenbereiche sensibler gestaltet, Aussagen begrenzt oder umformuliert. Die Beweggründe sind nachvollziehbar – vor allem dann, wenn diskriminierende Aussagen vermieden werden sollen. In den USA wird durch US-Unternehmen anders gefiltert, als in China von chinesischen Unternehmen.

Es bleibt die Frage: Wer entscheidet, was als ethisch korrekt gilt und wie das Modell fromulieren soll?
Die kulturellen Maßstäbe unterscheiden sich stark – zwischen Regionen, Gesellschaften, Weltanschauungen. Was in westlichen Kontexten als „Progressivität“ gilt, wird andernorts als ideologische Einflussnahme empfunden.

Wenn zentrale Entscheidungen darüber, was gesagt werden darf, allein bei privaten Plattformbetreibern liegen, ist die Grenze zur inhaltlichen Vorzensur schnell erreicht – auch wenn sie aus bester Absicht erfolgt. Oder geht der Gedanke doch zu weit? Wie viel Selbstverantwortung wollen wir den Nutzern zusprechen, wie viel Selbstschutz den Unternehmen gewähren, die ihren Ruf in dem Einflussbereich ihres Werteumfelds schützen wollen (auch vor juristischen Konsequenzen). Auch hier setzt die Globalisierung Herausforderungen.

Und: bringen Verbote uns weiter?

Gedankenspiel: Was wäre, wenn wir stattdessen auf Transparenz setzen?

Was wäre, wenn nicht Antworten blockiert oder umgeformt würden, sondern Hinweise gegeben werden, wie die Antwort einzuordnen ist?
Zum Beispiel:
„Diese Aussage enthält möglicherweise folgende Verzerrungen: …“
Ergänzt durch eine Option: „Hintergründe anzeigen“ oder „Einordnung anfordern“.

So könnten wir lernen, anstatt zu verschleiern.

Ein solches System würde nicht verhindern, dass Bias auftaucht – aber es könnte aufzeigen, woher er kommt, wie er wirkt und was er in anderen auslösen kann.
Damit würde nicht nur der Output verändert, sondern der Denkprozess des Nutzers angeregt. Wenn der Nutzer mitdenken möchte.

Aber auch dieser Gedanke enthält eine Überheblichkeit. Ich sage damit, ich weiß es besser und die Maschine sollte die, die es nicht besser wissen, belehren.

Funktioniert das?

Und wo stehen wir eigentlich selbst, mit unserem eigenen Bias, unserem eigenen, unbemerkten Alltagsrassismus? Ich selbst bin in einer Zeit aufgewachsen, in der das Rollenbild zwischen Mann und Frau aus heutiger Sicht bemerkenswert falsch war. Wir haben heute zum Glück eine ausgeglichenere Wahrnehmung, auch wenn wir das wünschenwerte Ziel noch nicht erreicht haben. Ich sehe das also aus der heutigen Zeit, merke aber doch immer noch Satzbildungen von mir, die den jungen KollegInnen eine Augenbraue hochgehen lässt. Nicht böse gemeint von meiner Seite, dennoch falsch.

Wir haben aktuell auch eine unglaubliche Verrohung der Sprache und Führunsgpersonen internationaler und nationaler Politik sagen Dinge, bei denen einem ungläubig der Mund offen stehen bleibt.

ChatGPT hilft!

Um Fakten zu bekommen, wie diese Zitate bewertet werden müssen, habe ich einen CustomGPT erstell, den Bias Checker, der nach mehreren Krtiterien eingegebenen Text wertet.
Dabei habe ich ChatGPT keine Vorgaben gemacht, nach welchen Kriterien oder welchem Standard zu werten ist. Natürlich, ChatGPT kommt aus der westlichen Werteregion, aber Vieles, was genau aus dem Geburtstland von ChatGPT seit einiger Zeit als Sprache hoffägig ist, sehe ich mein Wertesystem extrem verletzt. Und siehe da, ChatGPT kommt auch gleiche Einsätzungen, aber viel umfangreicher, detailtiefer und vor allem begründet bewertet.

Das funktioniert auch mit eigenen Texten. Z.B. für die Frage, wie viele unbewiesene Behauptungen man so in seinen Schriftverkehr packt, ohne das zu merken.

Wer ihn mal ausprobieren möchte: hier ist er zu finden BIAS CHECKER (Link zu ChatGPT).
Er funktioniert sowohl in der Bezahlversion, als auch in der kostenfreien Version von ChatGPT.
(Das Tool läuft auf ChatGPT – niemand liest mit, außer der Algorithmus.)

Hier ist der Bias Checker erlebbar im Einsatz bei der Analyse eines Zitats des US-amerikanischen Präsidenten zu einer Justizentscheidung auf der Plattform Truth Social (ein direkter Link auf dieses Zitat bei Truth Social ist nicht möglich, da es Directlinks bei dieser Plattform nicht gibt. Das Zitat ist aber u.a. hier zu finden: ).
Link zur ChatGPT-Analyse über den Bias-Checker

Ich habe auch diesen Blogbeitrag checken lassen. Auch hierzu gibt ChatGPT tiefe Einblicke in die Wirkung von Sprache: Link zur Bias-Checker-Analyse dieses Blogbeitrags

Testet auch gerne eure Texte. Der Bias-Checker ist kostenfrei nutzbar und ich kann nicht sehen, was von euch eingegeben wurde.

Weitere Hintergrundinformationen (Blogbeiträge) zum Thema Finetuning und Guardrails und wie LLMs funktionieren

Guardrails: Sprachmodelle zwischen Freiheit und Verantwortung

Ein vertiefter Blick in die Trainingsschritte eines LLMs

KI-generierter Content als Trainingdaten – Eine unterschätztes Problem

KI nutzen – aber mit Verantwortung!