GPT-5.2 Prompting-Evolution: Wie man mit moderne LLMs jetzt prompten muss

TL;DR

Vorweg: Die nachfolgenden Hinweise und Empfehlungen werden Hochleistungsmodelle wie GPT-5.2 dazu bringen, auch im Ergebnis Hochleistung auszuspucken. Natürlich kann man auch weiter entspannt „normal“ prompten und mit GPT-5.2 plaudernd zum Ziel kommen. Allerdings nutzt man dann nicht die Möglichkeiten, die in den LLMs stecken. Die Ergebnisse erreichen auf dem traditionellen Weg nicht die Qualität, wie auf dem spezifischen Prompt-Ansatz, den ich nachfolgend beschreibe. Grundlage für den Leitfaden sind u.a. das offizielle OpenAI Prompting-Cookbook, das hier zu finden ist.

Spoiler: Wem die Umstellung schwerfällt. Hier gibt es den Blogartikel dazu, wie man KI selbst dafür einsetzen kann, diese knallharten, durchstrukturierten Prompts zu entwickeln. Und das auf die althergebrachte Weise, sogar im freundlichen Ton miteinander.

Aber jetzt erstmal zur neuen, harten Promptingrealität:

GPT-5.2: Wieder ein fundamentaler Prompting-Wechsel

Am 11. Dezember 2025 veröffentlichte OpenAI GPT-5.2 – nur Wochen nach der Veröffentlichung von Googles Gemini 3, als direkte Reaktion auf den Mitbewerber für Platz Nummer 1. Die für den Anwender wichtigste Neuerung liegt nicht in den Benchmarks, sondern in der Philosophie, wie GPT-5.2 seine Aufgaben präsentiert haben möchte, um Höchstleistungen zu liefern.
GPT-5.2 wurde als „Worker, not chatterbox“ („Arbeiter, kein Schwätzer“) konzipiert.
Während bei GPT-4 noch galt „coax behavior with style“ („locke Verhalten mit wortreichen Tricks hervor“), lautet die neue Devise „specify behavior with structure“ („spezifiziere Verhalten mit Struktur“).

Dieser Wechsel reflektiert eine Reifung der Large Language Models hin zu knallharten Produktionssystemen. GPT-5.2 bietet einen 400.000-Token Context-Window, drei spezialisierte Varianten (Instant, Thinking, Pro) und erreicht auf dem GDPval-Benchmark 70,9 % – das bedeutet, es übertrifft oder erreicht menschliche Experten bei professionellen Wissensaufgaben in 44 Berufsfeldern.


Was wirklich neu ist: Überlegte Steuerung statt wortreicher Tricks

Reasoning Effort: Das Ende von „Think Deeply“

GPT-4-Nutzer griffen oft zu Phrasen wie „think deeply“, „take your time“ oder „use extended reasoning“. Bei GPT-5.1 war das schon nicht mehr sinnvoll. Das eigene Reasoning-Routing lief aber nicht nachvollziehbar und unzuverlässig.
Bei GPT-5.2 funktionieren diese verbalen Trigger gar nicht mehr. Es interessiert die Maschine nicht. Motto: Aufgabe vernünftig stellen, dann denke ich das schon angemessen durch!

Immerhin gibt es nun explizite Steuerungsparameter:

  • Reasoning Effort (Low/Medium/High): Bestimmt, wie intensiv das Modell nachdenkt
  • Verbosity (Low/Medium/High): Kontrolliert die Ausgabelänge
  • Automatisches Routing: Das Modell entscheidet selbst, wann tieferes Reasoning nötig ist

Ein Nutzer auf Reddit beschreibt den Unterschied: „GPT-5.2 routes ‚deep thinking‘ differently than 5.1. Explicit instructions like ‚think deeply‘ don’t consistently trigger extended thinking anymore. Instead, the depth happens automatically based on task complexity.“ („GPT-5.2 steuert ‚tiefes Denken‘ anders als 5.1. Die Denk-Tiefe entsteht automatisch aus der Aufgabenkomplexität.“)

Task-Struktur erzwingt Tiefe

Anstatt das Modell aufzufordern nachzudenken, muss die Aufgabenstellung selbst das tiefe Reasoning erzwingen:

❌ GPT-4-Stil:

Analysiere diese Finanzstrategie gründlich. 
Denk tief darüber nach und gib mir die beste Antwort.

✅ GPT-5.2-Stil:

Analysiere diese Preisstrategie.

Bevor du die finale Antwort gibst:
1. Erfasse die genannten Einschränkungen (Kosten, Risiko, Zeitrahmen)
2. Identifiziere widersprüchliche Ziele
3. Modelliere kurzfristige versus langfristige Auswirkungen
4. Prüfe Annahmen gegen Marktdaten
5. Präsentiere Abwägungen mit Vertrauensniveaus

Format: Strukturiertes Reasoning → Finale Empfehlung

Der zweite Prompt gibt dem Modell eine Roadmap vor, die Deep Thinking automatisch auslöst.
Bedeutet aber auch zwingend eigenes Mitdenken VOR dem Prompting. Das ist neu.


„Du bist…“ Rollenzuordnung?

Vorsicht bei zu generischen Rollen

Eine 2025 veröffentlichte Studie zu mathematischem Reasoning zeigt: Role-Playing-Prompts führten zu keiner Verbesserung, teilweise sogar zu Verschlechterungen. Die Forscher fanden heraus, dass „role-playing prompts do not improve reasoning abilities and may even degrade performance“ („Rollenspielprompts verbessern die Reasoning-Fähigkeiten nicht und können die Leistung sogar verschlechtern“).

Das Problem: Das Modell versucht, vor allem die Rolle auszufüllen, anstatt sich auf die Aufgabe zu konzentrieren.

Rollen sind noch sinnvoll, wenn sie sehr fein aufgabenspezifisch formuliert sind

Das ORPP-Framework (Optimizing Role-Playing Prompts) zeigt, dass hochqualitative, taskspezifische Rollen durchaus Performance-Vorteile bringen. Der Unterschied: Diese Rollen sind nicht generisch („Experte“), sondern sehr präzise auf die für die Aufgabe benötigten Fähigkeiten zugeschnitten.

Best Practice für moderne LLMs

✅ JA zu Rollen – aber:

  • Kurz und funktional statt theatralisch
  • Auf Systemebene für konsistente Behavior
  • Task-aligned: Rolle muss zu benötigten Skills passen

Konkret:

❌ „Du bist der weltbeste Social Media Experte mit 20 Jahren Erfahrung in Fortune 500 Unternehmen…“

✅ „Du bist ein B2B-Social-Media-Stratege für LinkedIn mit Spezialisierung auf C-Level-Kommunikation. Aufgabe: Erstelle einen LinkedIn-Contentkalender zu …“

Die Systemebene ist dabei entscheidend: System Prompts erhalten intern mehr Aufmerksamkeit vom Modell und „single optimized system prompts can perform comparable to task-specific prompts“ („einzelne optimierte System-Prompts können vergleichbar mit aufgabenspezifischen Prompts abschneiden“). Also besser in den Custom Instructions aufnehmen, als in den eigentlichen Prompt.


Was funktioniert weiter – und was nicht

✅ Planning-First bleibt zentral

Die Aufforderung „Plan before perform“ („Plane bevor du ausführst“) ist nach wie vor eine der effektivsten Techniken. Und das ist die Aufgabe des Nutzers, bevor er sich an die Maschine wendet! Der Mensch muss sich den Plan überlegen, den die Maschine ausführen soll. Ja, richtig gelesen. Also z.B. wie folgt prompten:

Bevor du die Social-Media-Strategie schreibst:
1. Identifiziere Ziel-Personas
2. Ordne Content-Säulen den Geschäftszielen zu
3. Definiere KPIs pro Kanal
4. Erstelle einen 90-Tage-Zeitplan mit Meilensteinen

Erstelle dann die Strategie in dieser Reihenfolge.

✅ Strukturierte Prompts mit klarer Hierarchie

Alle modernen LLMs bevorzugen eine klare Struktur:

Hierarchie: Rolle → Ziel → Einschränkungen → Format → Beispiele

Das ist also sogar immer noch gültig, was wir vor „Jahren“ schon zu strukturiertem Prompten gelernt haben. Und GPT-5.2 ist besonders sensitiv für diese Ordnung: „GPT-5.2 obeys hierarchy, not vibes“ („GPT-5.2 gehorcht Hierarchie, nicht Stimmungen“). Auch hier: knallhart die Aufgabe definieren und den Weg vorgeben

✅ Chain-of-Thought – aber anders

Chain-of-Thought funktioniert weiterhin, aber die Implementierung hat sich verändert. Statt zu sagen „Let’s think step by step“, strukturiert man die Aufgabe so, dass schrittweises Reasoning automatisch nötig ist. Also die verschiedenen, nacheinander abzuarbeitenden, aufeinander aufbauenden Aufgabenabschnitte klar vorgeben. Dann klappt’s auch mit dem Schritt-für-Schritt-Denken.

⚠️ Few-Shot Learning – weniger ist mehr

Few-Shot Learning bleibt nützlich, aber moderne Modelle brauchen deutlich weniger Beispiele. Die Empfehlung: „Keep few-shot examples light“ („Halte Few-Shot-Beispiele leicht“). 2-5 qualitativ hochwertige Beispiele sind meist ausreichend.

❌ Obsolet: Verbale Reasoning-Tricks

„Think deeply“, „take your time“, „use extended reasoning“ – diese Phrasen sind bei GPT-5.2 sinnlos. Das Modell entscheidet automatisch über die Tiefe. Wer mehr eigene Kontrolle über die Denktiefe braucht, kann das nicht mehr über das Prompteingabefenster machen, sondern muss an die API ran. Über die API-Befehle kann man den reasoning_effort-Parameter direkt beeinflussen.

❌ Kontraproduktiv: Übermäßiges Geplauder

Lange, plaudernde (oder hart ausgedrückt: undurchdachte) Prompts verschwenden Tokens und verwirren das Modell. GPT-5.2 wurde explizit trainiert, um mit präzisen Anweisungen zu arbeiten.
Quatsch nicht! Stell mir eine klare Aufgabe. Alles andere irritiert das Modell eher und führt auch dadurch zu schlechteren Ergebnissen.


Der Blick über den Tellerrand: Gemini 3, Claude, Mistral

Gemini 3: Direktheit statt Überredungskunst

Googles Gemini 3 folgt übrigens einer ähnlichen Philosophie wie GPT-5.2:

Besonderheiten:

  • Standardmäßig weniger wortgewaltig als GPT-5.2
  • Context-Platzierung: Bei Long Context muss der Kontext zuerst kommen, die Anweisung danach
  • Anker-Phrase: „Based on the information above…“ („Basierend auf den obigen Informationen…“) nach großen Datenblöcken
  • Expliziter Ton: Conversational Tone muss explizit angefordert werden
<context>
[Gesamtes Dokument hier]
</context>

Basierend auf den obigen Informationen, extrahiere:
- Hauptrisiken (Top 3)
- Umsatztrends (QoQ %)
- Änderungen der Management-Guidance

Format: Stichpunkte, max. 150 Wörter

Claude Opus 4.5: Erkläre das „Warum“

Anthropics Claude profitiert davon, wenn man erklärt, warum eine Beschränkung existiert:

Vermeide Slang in der Antwort, weil das Publikum 
eine Gruppe von C-Level-Führungskräften ist, die 
professionelle Sprache in finanziellen Kontexten erwarten.

Dieser Kontext führt zu konsistenteren Outputs als ein simples „Kein Slang“.

Weitere Besonderheiten:

  • „Power Phrases“: „denke Schritt für Schritt“, „kritisiere deine eigene Antwort“ funktionieren weiterhin bei Claude sehr gut
  • Draft, plan, then act: Dreistufiger Prozess (Entwurf → Verfeinern → Ausführen)
  • Positive Formulierungen: „Mach dies“ statt „Mach das nicht“

Mistral Large 3: Objektive Maße statt vager Adjektive

Das französische Mistral-Modell legt Wert auf präzise Quantifizierung:

❌ „Fasse dies zusammen, aber nicht zu lang“ ✅ „Fasse in exakt 200 Wörtern zusammen“

Die Dokumentation warnt: „Avoid blurry quantitative adjectives like ‚too long‘, ‚many‘, ‚few'“ („Vermeide verschwommene quantitative Adjektive wie ‚zu lang‘, ‚viele‘, ‚wenige'“).

Gemeinsamkeiten aller modernen LLMs

AspektGPT-5.2Gemini 3Claude 4.5Mistral Large 3
Verbosity DefaultMediumLowMediumMedium
Long Context PositionFlexibelContext→QueryFlexibelFlexibel
Reasoning TriggerAuto+APIAutoExplizitExplizit
Role ImportanceMediumMediumHighHigh

Praktische Vorher-Nachher-Beispiele

Beispiel 1: Finanzanalyse

GPT-4-Stil (veraltet):

Analysiere diesen Quartalsbericht und fasse die wichtigsten 
Punkte zusammen. Sei gründlich und präzise.

GPT-5.2-Stil (modern):

Analysiere diesen Q3-2025-Quartalsbericht für Stakeholder ohne Fachwissen.

Fokus auf:
- Umsatz vs. Prognose (tatsächliche Zahlen + %)
- Margentrends (QoQ und YoY)
- Liquiditätsposition und Burn Rate
- Top 3 genannte Risiken

Ausschließen:
- Produktfunktionsdetails
- Individuelle Kundennamen
- Aktienkursspekulationen

Format: ~200 Wörter, Stichpunkte, einfache Sprache
Reasoning: niedrig
Verbosity: niedrig

Beispiel 2: Code-Review

GPT-4-Stil:

Überprüfe diesen Code und sag mir, was falsch ist.
Sei gründlich und erkläre alles klar.

GPT-5.2-Stil:

Du überprüfst Python-Code für ein FastAPI-Backend.

Überprüfungskriterien:
1. Sicherheitslücken (SQL-Injection, XSS)
2. Performance-Engpässe (N+1-Abfragen, blockierendes I/O)
3. Vollständigkeit der Fehlerbehandlung
4. Abdeckung von Type Hints

Für jedes gefundene Problem:
- Schweregrad: Kritisch/Hoch/Mittel/Niedrig
- Zeilennummern
- Vorgeschlagene Lösung mit Code-Snippet
- Warum es wichtig ist

Überspringe: Code-Style, Namenskonventionen

Output: Markdown-Tabelle + Code-Blöcke

Die 10 häufigsten Prompting-Fehler 2025 und wie man sie vermeidet

  1. Zu vage sein
    Nicht „Mach es professioneller“ sondern „Verwende formale Sprache, vermeide Kontraktionen, sieze den Leser“
  2. Output-Format nicht definieren
    Wer es kann: Explizit JSON-Schema, Markdown oder Tabellenformat vorgeben
  3. Keine negativen Constraints gesetzt
    Explizit „Füge KEINE Aktienkurse, Kundennamen oder Spekulationen hinzu“
  4. Prompt überladen
    Besser Tasks in fokussierte Einzelprompts aufteilen
  5. Fehlende Delimiters
    Besser XML-Tags, Markdown-Sections oder Triple-Backticks nutzen
  6. Vage Reasoning-Aufforderungen
    Nicht explizit auffordern durch „think hard“ sondern bei GPT-5.2 durchdachte, detaillierte Task-Struktur gestalten, die auch die Erwartung des ERgebnisses konkretisiert.
  7. Zu vage und/oder zu viele Few-Shot Beispiele
    Keine Masse an Beispielen (irritiert das Modell), keine Allgemeinheiten als Vorbild, sondern 2-5 qualitativ hochwertige Beispiele mitgeben
  8. Conversational Tone für Technical Tasks
    Präzise, strukturierte Sprache ohne Füllwörter. Kurz, knapp, fast schon ruppig formulieren (Don’t do this at home 🙂 ).
    Ja, auch auf „bitte“ und „danke“ kann/sollte man verzichten
  9. Länge/Verbosity ignorieren
    Klare Grenzen setzen. Selbst auch nicht geschwätzig sein. Also z.B. „~200 Wörter“ oder Verbosity (Schwatzhaftigkeit)-Parameter explizit setzen
  10. Rollenzuweisung übertreiben/falsch einsetzen
    Kurze, funktionale, extrem spezifische Rollenbeschreibung im System Prompt. Alles andere nimmt sich das Modell selbst aus dem gut gebauten Prompt.

Fazit: Knallharte Struktur schlägt Freundlichkeit

GPT-5.2, Gemini 3, Claude Opus 4.5 und Mistral Large 3 belohnen alle klare Aufgaben, die sauber hierarchisch strukturiert sind, explizite genannte (und erklärte) Einschränkungen/Grenzen und präzise Output-Spezifikationen.

Die wichtigsten Erkenntnisse:

  1. Rollenzuweisungen: Ja, aber kurz, funktional und task-aligned
  2. Reasoning: Durch Task-Struktur erzwingen, nicht verbal triggern
  3. Few-Shot: Weniger ist mehr – Qualität über Quantität
  4. Verbosity-Control: Parameter nutzen statt Phrasen wiederholen
  5. Struktur: Rolle → Ziel → Einschränkungen → Format → Beispiele
  6. Planning-First: Effektivste Technik über alle Modelle hinweg

Die Kunst des Prompting hat sich von einer kreativen zu einer engineeringgetriebenen Disziplin entwickelt. Wer das versteht, holt aus modernen LLMs deutlich mehr heraus als mit den Techniken von 2023.

Aber: Wer weiterhin einen freundlichen Stil mit der Maschine beibehalten möchte … auch hiermit kommt man zu guten Ergebnissen. Es dauert nur länger und hat einige Risiken, wenn man zu sehr ins Geplauder gerät.

Wem die Umstellung schwerfällt. Hier gibt es den Blogartikel dazu, wie man KI selbst dafür einsetzen kann, diese knallharten, durchstrukturierten Prompts zu entwickeln. Und das auf die althergebrachte Weise, sogar im freundlichen Ton miteinander.


Weitere Artikel zu diesem Themenfeld

Dieses Thema hat mehr Facetten, als ein einzelner Artikel abbilden kann. Hier sind Beiträge, die verschiedene Aspekte davon vertiefen: