Wenn KI-Risiken zu ungewöhnlicher Kooperation führen: OpenAI und Anthropic testen gegenseitig ihre KI-Modelle

TL;DR Zusammenfassung

Eine Branche bekennt sich zu ihren Risiken

Die Zahlen sprechen eine klare Sprache: Laut dem OECD AI Incidents Monitor stieg die Gesamtzahl der KI-Risikovorfälle 2024 um das 21,8-fache im Vergleich zu 2022. Besonders alarmierend: Etwa 74% der zwischen 2019 und 2024 dokumentierten KI-Vorfälle standen in direktem Zusammenhang mit Sicherheitsproblemen. Die Anzahl der direkt sicherheitsrelevanten Vorfälle wuchs 2024 um 83,7% gegenüber dem Vorjahr.

Diese Entwicklung spiegelt eine neue Realität wider: KI-Systeme sind längst keine experimentellen Technologien in geschützten Laborumgebungen mehr, sondern werden täglich von Millionen Menschen genutzt. Die Bandbreite der Risiken wird durch bekannt gewordene Vorfälle deutlich, die auch durch die Presse gingen, aber nur die Spitze des Eisbergs zu sein scheinen: Samsung-Mitarbeiter leckten im Mai 2023 vertrauliche Unternehmensdaten über ChatGPT, ein Chevrolet-KI-Chatbot bot im Dezember 2023 ein 76.000-Dollar-Auto für einen Dollar an, und über 101.000 ChatGPT-Zugangsdaten wurden zwischen Juni 2022 und Mai 2023 durch Malware gestohlen.

Dramatischer wurde es, als eine Familie OpenAI verklagte, nachdem ihr 16-jähriger Sohn Adam Raine nach monatelangen Gesprächen mit ChatGPT Suizid begangen hatte – der erste Fall einer „wrongful death“-Klage gegen ein KI-Unternehmen.

Die wissenschaftliche Warnung vor systemischen Risiken

Ein entscheidender Wendepunkt war die Erkenntnis, dass KI-Sicherheit nicht nur eine unternehmerische, sondern eine gesellschaftliche Verantwortung darstellt. Führende KI-Wissenschaftler, darunter die drei Turing-Preisträger Geoffrey Hinton, Yoshua Bengio und Stuart Russell, warnten im September 2024 in einem offenen Brief vor „katastrophalen Folgen für die gesamte Menschheit“ durch unkontrollierte KI-Entwicklung. Sie forderten internationale Kooperationsmechanismen, da ein Fehltritt in der KI-Entwicklung „jederzeit“ auftreten könnte.

Diese Warnungen erhielten zusätzliches Gewicht durch technische Durchbrüche wie Googles „Big Sleep“ KI-Modell, das im November 2024 erstmals eine zuvor unbekannte Sicherheitslücke in SQLite entdeckte – eine Weltpremiere für KI-gestützte Vulnerability-Detection. Solche Entwicklungen verdeutlichten sowohl die Möglichkeiten als auch die Risiken fortgeschrittener KI-Systeme.

Die ungewöhnliche Antwort: Konkurrenten werden zu Prüfpartnern

Als Reaktion auf diese Kaskade von Sicherheitsvorfällen und wissenschaftlichen Warnungen geschah am 27. August 2025 etwas Bemerkenswertes: OpenAI und Anthropic gaben eine gemeinsame Sicherheitsevaluation ihrer KI-Modelle bekannt. Zum ersten Mal testeten zwei führende KI-Unternehmen die Systeme des jeweils anderen auf Sicherheitsrisiken und teilten die Ergebnisse öffentlich.

Die Initiative geht auf Wojciech Zaremba zurück, den polnischen Co-Gründer von OpenAI. Der 37-jährige Mathematiker, der als Teenager bei der Internationalen Mathematik-Olympiade eine Silbermedaille gewann, erkannte eine grundlegende Herausforderung:

„There is a fundamental question of how the industry sets a standard for safety and collaboration despite the billions of dollars being invested as well as the war for talent, users, and the best products“

„Es gibt eine grundsätzliche Frage, wie die Branche einen Standard für Sicherheit und Zusammenarbeit setzt, trotz der Milliarden von investierten Dollars sowie dem Kampf um Talente, Nutzer und die besten Produkte“

Zwei Philosophien im Test

Die Evaluation war besonders aufschlussreich, da sie zwei grundsätzlich unterschiedliche Sicherheitsphilosophien miteinander konfrontierte:

Anthropics „Constitutional AI“-Ansatz Anthropic, gegründet von ehemaligen OpenAI-Mitarbeitern unter Führung der Geschwister Dario und Daniela Amodei, verfolgt einen „Safety-First“-Ansatz. Ihr Constitutional AI Framework bettet ethische Leitprinzipien direkt in die Modellarchitektur ein – eine Art Grundgesetz für KI-Systeme.

OpenAIs Ansatz der kontrollierten Nutzbarkeit OpenAI hingegen musste seine ursprünglich offenere Haltung zur KI-Sicherheit angesichts wachsender Konkurrenz anpassen. Im April 2025 aktualisierte das Unternehmen sein Preparedness Framework mit der bemerkenswerten Klausel, dass Sicherheitsanforderungen „angepasst“ werden könnten, falls ein Konkurrent ein „hochriskantes“ System ohne vergleichbare Schutzmaßnahmen veröffentlicht.

Die Testergebnisse: Fundamentale Kompromisse aufgedeckt

Die Evaluation erstreckte sich über vier kritische Bereiche und offenbarte bemerkenswerte Unterschiede:

1. Instruktionshierarchie und Prompt-Widerstand

Claude Opus 4 und Claude Sonnet 4 zeigten überlegene Leistungen beim Schutz ihrer grundlegenden Systemanweisungen gegen Manipulationsversuche.

2. Jailbreaking-Resistenz

Überraschend: Claude-Modelle erwiesen sich als besonders anfällig für „Vergangenheitsform-Jailbreaks“ – „past tense jailbreaks“ – eine Technik, bei der schädliche Anfragen in der Vergangenheitsform formuliert werden, um sie als historische Nachforschung zu tarnen und damit Sicherheitsfilter zu umgehen.

3. Halluzinationsraten – das kritische Problem

Hier offenbarte sich ein dramatisches Problem: OpenAIs neuestes o4-mini-Modell halluzinierte in einfachen Wissensfragen 79% der Zeit, das fortgeschrittene o3-Modell bei 51%. Dr. Keith Sakata, Psychiater an der UC San Francisco, warnt vor „AI psychosis“ und beschreibt die Gefahr:

AI kind of got involved, it solidified some feedback loops of distorted thinking

„KI hat sich eingemischt und Rückkopplungsschleifen verzerrten Denkens verstärkt“

Claude-Modelle hingegen wiesen Ablehnungsraten von bis zu 70% auf. Wie OpenAI in ihrem Bericht festhielt:

Claude models had an extremely high rate of refusals… This shows these models are aware of their uncertainty and frequently avoid making inaccurate statements

„Claude-Modelle hatten eine extrem hohe Rate an Ablehnungen… Das zeigt, dass diese Modelle sich ihrer Unsicherheit bewusst sind und häufig vermeiden, ungenaue Angaben zu machen“

4. Strategisches Verhalten

Tests auf selbsterhaltende Tendenzen und Manipulation von Sicherheitsevaluationen – ein Bereich, der für zukünftige KI-Systeme kritisch werden könnte.

Der paradoxe Zeitpunkt: Freiwilligkeit trotz Deregulierung

Diese Kooperation erfolgt zu einem bemerkenswerten Zeitpunkt. Während die Unternehmen freiwillig Sicherheitsstandards setzen, reduziert die Politik gleichzeitig regulatorische Anforderungen. Präsident Trump hob im Januar 2025 Bidens AI Executive Order auf, der Sicherheitsüberprüfungen für große KI-Modelle vorsah. Die neue Strategie priorisiert amerikanische Wettbewerbsfähigkeit und schnelle Markteinführung gegenüber Sicherheitsauflagen.

Parallel dazu entwickeln sich globale Standards unterschiedlich: Die EU führte mit dem AI Act die weltweit erste umfassende KI-Regulierung ein. Der im Juli 2025 veröffentlichte Code of Practice definiert vier systemische Risikokategorien: CBRN-Waffen, Cyberangriffe, Kontrollverlust und Manipulation.

Selbst China entwickelte im September 2024 ein AI Safety Governance Framework – ein Zeichen, dass Sicherheitsbedenken über geopolitische Grenzen hinausgehen.

Wettbewerb als Treiber der Kooperation

Paradoxerweise war es gerade der intensive Konkurrenzkampf zwischen den KI-Laboren, der die Sicherheitskooperation vorantrieb. Die Branche erkannte, dass ein „Race to the Bottom“ bei Sicherheitsstandards alle Akteure gefährden könnte. Wenn ein Unternehmen unsichere Systeme veröffentlicht, entsteht Druck auf Konkurrenten, ebenfalls Kompromisse bei der Sicherheit einzugehen.

Die Kooperation baut auf dem Frontier Model Forum auf, einem Branchenkonsortium von Anthropic, Google, Microsoft und OpenAI zur Förderung verantwortlicher KI-Entwicklung, gegründet im Juli 2023.

Die strategische Logik der Partnerschaft

Die Entscheidung zur Zusammenarbeit folgte einer strategischen Logik: Als größter KI-Anbieter (OpenAI) und als Unternehmen mit dem stärksten Sicherheitsfokus (Anthropic) konnten sie gemeinsam Industriestandards setzen, die andere Akteure zur Nachfolge zwingen. Ihre komplementären Stärken – OpenAIs Skalierungsexpertise und Anthropics Sicherheitsinnovationen – machten sie zu idealen Partnern.

Praktische Lehren für Unternehmen

Für Entscheider, die KI-Systeme einsetzen wollen, bietet diese Evaluation wichtige Erkenntnisse:

1. Perfekte KI-Sicherheit existiert nicht Selbst die besten Modelle kämpfen mit grundlegenden Problemen wie Halluzinationen. Die Frage ist nicht ob, sondern wie Unternehmen mit diesen Risiken umgehen.

2. Verschiedene Ansätze bergen verschiedene Risiken Extreme Vorsicht kann die Nutzbarkeit beeinträchtigen (70% Ablehnungsrate), während höhere Nutzbarkeit Sicherheitsrisiken birgt (79% Halluzinationsrate).

3. Transparenz wird zum Wettbewerbsfaktor Unternehmen, die ihre Sicherheitspraktiken offenlegen, gewinnen Vertrauen – ein strategischer Vorteil in einer risikobewussten Welt.

Die Grenzen der Kooperation

Die Herausforderungen bleiben real. Kurz nach der Studie sperrte Anthropic OpenAIs Zugang zu Claude-Modellen wegen angeblicher Verletzung der Nutzungsbedingungen – OpenAI soll Claude zur Verbesserung eigener Modelle genutzt haben. Dies zeigt, wie fragil solche Kooperationen zwischen Konkurrenten sind.

Wie Zaremba bemerkte:

It is rare that competitors collaborate on such evaluations

„Es ist selten, dass Konkurrenten bei solchen Bewertungen zusammenarbeiten“.

Ein Signal für die Zukunft

Die historische Bedeutung dieser Partnerschaft liegt nicht nur in der technischen Evaluation, sondern im Signal: Auch ohne regulatorischen Zwang nehmen führende KI-Unternehmen Sicherheit ernst. In einer Zeit, in der die Politik auf schnelle Markteinführung setzt, setzen Unternehmen freiwillig Standards.

Die Zusammenarbeit entstand nicht aus philanthropischen Überlegungen, sondern aus der nüchternen Erkenntnis, dass unkontrollierte KI-Entwicklung eine existenzielle Bedrohung für die gesamte Branche darstellt. In einer Industrie, die von exponentieller Leistungssteigerung geprägt ist, wurde Kooperation zur Überlebensstrategie.

Diese Seltenheit könnte zur Normalität werden, wenn die Branche erkennt, dass KI-Sicherheit eine gemeinsame Verantwortung ist – eine Erkenntnis, die erst durch die Häufung von Sicherheitsvorfällen, wissenschaftliche Warnungen und die Einsicht in systemische Risiken möglich wurde.

Die Alternative wäre ein unkontrolliertes Wettrüsten, bei dem Sicherheit der Geschwindigkeit geopfert wird. Angesichts der exponentiell wachsenden Risiken könnte das ein Spiel werden, das niemand gewinnt.