TL;DR
OpenAI hat mit GPT-5.2 einen erneuten Kurswechsel in der Maschine-Mensch-Kommunikation vollzogen:
Weg von wortgewandter Überredungskunst des Nutzers, hin zu strukturierter Präzision.
Rollenzuweisungen bleiben sinnvoll, müssen aber kurz und funktional sein. Verbale Reasoning-Tricks wie „think deeply“ funktionieren nicht mehr und bewirken nicht selten das Gegenteil – stattdessen erzwingt ein strukturell aufgebauter Prompt das tiefe Nachdenken.
Few-Shot Learning bleibt nützlich, aber nur mit deutlich weniger Beispielen, als „früher“.
Planning-First-Ansätze, also der eigene Durchdenken der Aufgabe, was zu einem detaillierten und auf die Aufgabe strukturierten Prompt führt, sind für ein top Ergebnis inzwischen zwingend. Gemini 3, Claude Opus 4.5 und Mistral Large 3 folgen ähnlichen Prinzipien, mit jeweils eigenen Besonderheiten.
Wer Leistung vom LLM verlangt, muss vorher eigene Leistung in den gut durchdachten Promptaufbau stecken.
Vorweg: Die nachfolgenden Hinweise und Empfehlungen werden Hochleistungsmodelle wie GPT-5.2 dazu bringen, auch im Ergebnis Hochleistung auszuspucken. Natürlich kann man auch weiter entspannt „normal“ prompten und mit GPT-5.2 plaudernd zum Ziel kommen. Allerdings nutzt man dann nicht die Möglichkeiten, die in den LLMs stecken. Die Ergebnisse erreichen auf dem traditionellen Weg nicht die Qualität, wie auf dem spezifischen Prompt-Ansatz, den ich nachfolgend beschreibe. Grundlage für den Leitfaden sind u.a. das offizielle OpenAI Prompting-Cookbook, das hier zu finden ist.
Spoiler: Wem die Umstellung schwerfällt. Hier gibt es den Blogartikel dazu, wie man KI selbst dafür einsetzen kann, diese knallharten, durchstrukturierten Prompts zu entwickeln. Und das auf die althergebrachte Weise, sogar im freundlichen Ton miteinander.
Aber jetzt erstmal zur neuen, harten Promptingrealität:
GPT-5.2: Wieder ein fundamentaler Prompting-Wechsel
Am 11. Dezember 2025 veröffentlichte OpenAI GPT-5.2 – nur Wochen nach der Veröffentlichung von Googles Gemini 3, als direkte Reaktion auf den Mitbewerber für Platz Nummer 1. Die für den Anwender wichtigste Neuerung liegt nicht in den Benchmarks, sondern in der Philosophie, wie GPT-5.2 seine Aufgaben präsentiert haben möchte, um Höchstleistungen zu liefern.
GPT-5.2 wurde als „Worker, not chatterbox“ („Arbeiter, kein Schwätzer“) konzipiert.
Während bei GPT-4 noch galt „coax behavior with style“ („locke Verhalten mit wortreichen Tricks hervor“), lautet die neue Devise „specify behavior with structure“ („spezifiziere Verhalten mit Struktur“).
Dieser Wechsel reflektiert eine Reifung der Large Language Models hin zu knallharten Produktionssystemen. GPT-5.2 bietet einen 400.000-Token Context-Window, drei spezialisierte Varianten (Instant, Thinking, Pro) und erreicht auf dem GDPval-Benchmark 70,9 % – das bedeutet, es übertrifft oder erreicht menschliche Experten bei professionellen Wissensaufgaben in 44 Berufsfeldern.
Was wirklich neu ist: Überlegte Steuerung statt wortreicher Tricks
Reasoning Effort: Das Ende von „Think Deeply“
GPT-4-Nutzer griffen oft zu Phrasen wie „think deeply“, „take your time“ oder „use extended reasoning“. Bei GPT-5.1 war das schon nicht mehr sinnvoll. Das eigene Reasoning-Routing lief aber nicht nachvollziehbar und unzuverlässig.
Bei GPT-5.2 funktionieren diese verbalen Trigger gar nicht mehr. Es interessiert die Maschine nicht. Motto: Aufgabe vernünftig stellen, dann denke ich das schon angemessen durch!
Immerhin gibt es nun explizite Steuerungsparameter:
- Reasoning Effort (Low/Medium/High): Bestimmt, wie intensiv das Modell nachdenkt
- Verbosity (Low/Medium/High): Kontrolliert die Ausgabelänge
- Automatisches Routing: Das Modell entscheidet selbst, wann tieferes Reasoning nötig ist
Ein Nutzer auf Reddit beschreibt den Unterschied: „GPT-5.2 routes ‚deep thinking‘ differently than 5.1. Explicit instructions like ‚think deeply‘ don’t consistently trigger extended thinking anymore. Instead, the depth happens automatically based on task complexity.“ („GPT-5.2 steuert ‚tiefes Denken‘ anders als 5.1. Die Denk-Tiefe entsteht automatisch aus der Aufgabenkomplexität.“)
Task-Struktur erzwingt Tiefe
Anstatt das Modell aufzufordern nachzudenken, muss die Aufgabenstellung selbst das tiefe Reasoning erzwingen:
❌ GPT-4-Stil:
Analysiere diese Finanzstrategie gründlich.
Denk tief darüber nach und gib mir die beste Antwort.
✅ GPT-5.2-Stil:
Analysiere diese Preisstrategie.
Bevor du die finale Antwort gibst:
1. Erfasse die genannten Einschränkungen (Kosten, Risiko, Zeitrahmen)
2. Identifiziere widersprüchliche Ziele
3. Modelliere kurzfristige versus langfristige Auswirkungen
4. Prüfe Annahmen gegen Marktdaten
5. Präsentiere Abwägungen mit Vertrauensniveaus
Format: Strukturiertes Reasoning → Finale Empfehlung
Der zweite Prompt gibt dem Modell eine Roadmap vor, die Deep Thinking automatisch auslöst.
Bedeutet aber auch zwingend eigenes Mitdenken VOR dem Prompting. Das ist neu.
„Du bist…“ Rollenzuordnung?
Vorsicht bei zu generischen Rollen
Eine 2025 veröffentlichte Studie zu mathematischem Reasoning zeigt: Role-Playing-Prompts führten zu keiner Verbesserung, teilweise sogar zu Verschlechterungen. Die Forscher fanden heraus, dass „role-playing prompts do not improve reasoning abilities and may even degrade performance“ („Rollenspielprompts verbessern die Reasoning-Fähigkeiten nicht und können die Leistung sogar verschlechtern“).
Das Problem: Das Modell versucht, vor allem die Rolle auszufüllen, anstatt sich auf die Aufgabe zu konzentrieren.
Rollen sind noch sinnvoll, wenn sie sehr fein aufgabenspezifisch formuliert sind
Das ORPP-Framework (Optimizing Role-Playing Prompts) zeigt, dass hochqualitative, taskspezifische Rollen durchaus Performance-Vorteile bringen. Der Unterschied: Diese Rollen sind nicht generisch („Experte“), sondern sehr präzise auf die für die Aufgabe benötigten Fähigkeiten zugeschnitten.
Best Practice für moderne LLMs
✅ JA zu Rollen – aber:
- Kurz und funktional statt theatralisch
- Auf Systemebene für konsistente Behavior
- Task-aligned: Rolle muss zu benötigten Skills passen
Konkret:
❌ „Du bist der weltbeste Social Media Experte mit 20 Jahren Erfahrung in Fortune 500 Unternehmen…“
✅ „Du bist ein B2B-Social-Media-Stratege für LinkedIn mit Spezialisierung auf C-Level-Kommunikation. Aufgabe: Erstelle einen LinkedIn-Contentkalender zu …“
Die Systemebene ist dabei entscheidend: System Prompts erhalten intern mehr Aufmerksamkeit vom Modell und „single optimized system prompts can perform comparable to task-specific prompts“ („einzelne optimierte System-Prompts können vergleichbar mit aufgabenspezifischen Prompts abschneiden“). Also besser in den Custom Instructions aufnehmen, als in den eigentlichen Prompt.
Was funktioniert weiter – und was nicht
✅ Planning-First bleibt zentral
Die Aufforderung „Plan before perform“ („Plane bevor du ausführst“) ist nach wie vor eine der effektivsten Techniken. Und das ist die Aufgabe des Nutzers, bevor er sich an die Maschine wendet! Der Mensch muss sich den Plan überlegen, den die Maschine ausführen soll. Ja, richtig gelesen. Also z.B. wie folgt prompten:
Bevor du die Social-Media-Strategie schreibst:
1. Identifiziere Ziel-Personas
2. Ordne Content-Säulen den Geschäftszielen zu
3. Definiere KPIs pro Kanal
4. Erstelle einen 90-Tage-Zeitplan mit Meilensteinen
Erstelle dann die Strategie in dieser Reihenfolge.
✅ Strukturierte Prompts mit klarer Hierarchie
Alle modernen LLMs bevorzugen eine klare Struktur:
Hierarchie: Rolle → Ziel → Einschränkungen → Format → Beispiele
Das ist also sogar immer noch gültig, was wir vor „Jahren“ schon zu strukturiertem Prompten gelernt haben. Und GPT-5.2 ist besonders sensitiv für diese Ordnung: „GPT-5.2 obeys hierarchy, not vibes“ („GPT-5.2 gehorcht Hierarchie, nicht Stimmungen“). Auch hier: knallhart die Aufgabe definieren und den Weg vorgeben
✅ Chain-of-Thought – aber anders
Chain-of-Thought funktioniert weiterhin, aber die Implementierung hat sich verändert. Statt zu sagen „Let’s think step by step“, strukturiert man die Aufgabe so, dass schrittweises Reasoning automatisch nötig ist. Also die verschiedenen, nacheinander abzuarbeitenden, aufeinander aufbauenden Aufgabenabschnitte klar vorgeben. Dann klappt’s auch mit dem Schritt-für-Schritt-Denken.
⚠️ Few-Shot Learning – weniger ist mehr
Few-Shot Learning bleibt nützlich, aber moderne Modelle brauchen deutlich weniger Beispiele. Die Empfehlung: „Keep few-shot examples light“ („Halte Few-Shot-Beispiele leicht“). 2-5 qualitativ hochwertige Beispiele sind meist ausreichend.
❌ Obsolet: Verbale Reasoning-Tricks
„Think deeply“, „take your time“, „use extended reasoning“ – diese Phrasen sind bei GPT-5.2 sinnlos. Das Modell entscheidet automatisch über die Tiefe. Wer mehr eigene Kontrolle über die Denktiefe braucht, kann das nicht mehr über das Prompteingabefenster machen, sondern muss an die API ran. Über die API-Befehle kann man den reasoning_effort-Parameter direkt beeinflussen.
❌ Kontraproduktiv: Übermäßiges Geplauder
Lange, plaudernde (oder hart ausgedrückt: undurchdachte) Prompts verschwenden Tokens und verwirren das Modell. GPT-5.2 wurde explizit trainiert, um mit präzisen Anweisungen zu arbeiten.
Quatsch nicht! Stell mir eine klare Aufgabe. Alles andere irritiert das Modell eher und führt auch dadurch zu schlechteren Ergebnissen.
Der Blick über den Tellerrand: Gemini 3, Claude, Mistral
Gemini 3: Direktheit statt Überredungskunst
Googles Gemini 3 folgt übrigens einer ähnlichen Philosophie wie GPT-5.2:
Besonderheiten:
- Standardmäßig weniger wortgewaltig als GPT-5.2
- Context-Platzierung: Bei Long Context muss der Kontext zuerst kommen, die Anweisung danach
- Anker-Phrase: „Based on the information above…“ („Basierend auf den obigen Informationen…“) nach großen Datenblöcken
- Expliziter Ton: Conversational Tone muss explizit angefordert werden
<context>
[Gesamtes Dokument hier]
</context>
Basierend auf den obigen Informationen, extrahiere:
- Hauptrisiken (Top 3)
- Umsatztrends (QoQ %)
- Änderungen der Management-Guidance
Format: Stichpunkte, max. 150 Wörter
Claude Opus 4.5: Erkläre das „Warum“
Anthropics Claude profitiert davon, wenn man erklärt, warum eine Beschränkung existiert:
Vermeide Slang in der Antwort, weil das Publikum
eine Gruppe von C-Level-Führungskräften ist, die
professionelle Sprache in finanziellen Kontexten erwarten.
Dieser Kontext führt zu konsistenteren Outputs als ein simples „Kein Slang“.
Weitere Besonderheiten:
- „Power Phrases“: „denke Schritt für Schritt“, „kritisiere deine eigene Antwort“ funktionieren weiterhin bei Claude sehr gut
- Draft, plan, then act: Dreistufiger Prozess (Entwurf → Verfeinern → Ausführen)
- Positive Formulierungen: „Mach dies“ statt „Mach das nicht“
Mistral Large 3: Objektive Maße statt vager Adjektive
Das französische Mistral-Modell legt Wert auf präzise Quantifizierung:
❌ „Fasse dies zusammen, aber nicht zu lang“ ✅ „Fasse in exakt 200 Wörtern zusammen“
Die Dokumentation warnt: „Avoid blurry quantitative adjectives like ‚too long‘, ‚many‘, ‚few'“ („Vermeide verschwommene quantitative Adjektive wie ‚zu lang‘, ‚viele‘, ‚wenige'“).
Gemeinsamkeiten aller modernen LLMs
| Aspekt | GPT-5.2 | Gemini 3 | Claude 4.5 | Mistral Large 3 |
|---|---|---|---|---|
| Verbosity Default | Medium | Low | Medium | Medium |
| Long Context Position | Flexibel | Context→Query | Flexibel | Flexibel |
| Reasoning Trigger | Auto+API | Auto | Explizit | Explizit |
| Role Importance | Medium | Medium | High | High |
Praktische Vorher-Nachher-Beispiele
Beispiel 1: Finanzanalyse
GPT-4-Stil (veraltet):
Analysiere diesen Quartalsbericht und fasse die wichtigsten
Punkte zusammen. Sei gründlich und präzise.
GPT-5.2-Stil (modern):
Analysiere diesen Q3-2025-Quartalsbericht für Stakeholder ohne Fachwissen.
Fokus auf:
- Umsatz vs. Prognose (tatsächliche Zahlen + %)
- Margentrends (QoQ und YoY)
- Liquiditätsposition und Burn Rate
- Top 3 genannte Risiken
Ausschließen:
- Produktfunktionsdetails
- Individuelle Kundennamen
- Aktienkursspekulationen
Format: ~200 Wörter, Stichpunkte, einfache Sprache
Reasoning: niedrig
Verbosity: niedrig
Beispiel 2: Code-Review
GPT-4-Stil:
Überprüfe diesen Code und sag mir, was falsch ist.
Sei gründlich und erkläre alles klar.
GPT-5.2-Stil:
Du überprüfst Python-Code für ein FastAPI-Backend.
Überprüfungskriterien:
1. Sicherheitslücken (SQL-Injection, XSS)
2. Performance-Engpässe (N+1-Abfragen, blockierendes I/O)
3. Vollständigkeit der Fehlerbehandlung
4. Abdeckung von Type Hints
Für jedes gefundene Problem:
- Schweregrad: Kritisch/Hoch/Mittel/Niedrig
- Zeilennummern
- Vorgeschlagene Lösung mit Code-Snippet
- Warum es wichtig ist
Überspringe: Code-Style, Namenskonventionen
Output: Markdown-Tabelle + Code-Blöcke
Die 10 häufigsten Prompting-Fehler 2025 und wie man sie vermeidet
- Zu vage sein
Nicht „Mach es professioneller“ sondern „Verwende formale Sprache, vermeide Kontraktionen, sieze den Leser“ - Output-Format nicht definieren
Wer es kann: Explizit JSON-Schema, Markdown oder Tabellenformat vorgeben - Keine negativen Constraints gesetzt
Explizit „Füge KEINE Aktienkurse, Kundennamen oder Spekulationen hinzu“ - Prompt überladen
Besser Tasks in fokussierte Einzelprompts aufteilen - Fehlende Delimiters
Besser XML-Tags, Markdown-Sections oder Triple-Backticks nutzen - Vage Reasoning-Aufforderungen
Nicht explizit auffordern durch „think hard“ sondern bei GPT-5.2 durchdachte, detaillierte Task-Struktur gestalten, die auch die Erwartung des ERgebnisses konkretisiert. - Zu vage und/oder zu viele Few-Shot Beispiele
Keine Masse an Beispielen (irritiert das Modell), keine Allgemeinheiten als Vorbild, sondern 2-5 qualitativ hochwertige Beispiele mitgeben - Conversational Tone für Technical Tasks
Präzise, strukturierte Sprache ohne Füllwörter. Kurz, knapp, fast schon ruppig formulieren (Don’t do this at home 🙂 ).
Ja, auch auf „bitte“ und „danke“ kann/sollte man verzichten - Länge/Verbosity ignorieren
Klare Grenzen setzen. Selbst auch nicht geschwätzig sein. Also z.B. „~200 Wörter“ oder Verbosity (Schwatzhaftigkeit)-Parameter explizit setzen - Rollenzuweisung übertreiben/falsch einsetzen
Kurze, funktionale, extrem spezifische Rollenbeschreibung im System Prompt. Alles andere nimmt sich das Modell selbst aus dem gut gebauten Prompt.
Fazit: Knallharte Struktur schlägt Freundlichkeit
GPT-5.2, Gemini 3, Claude Opus 4.5 und Mistral Large 3 belohnen alle klare Aufgaben, die sauber hierarchisch strukturiert sind, explizite genannte (und erklärte) Einschränkungen/Grenzen und präzise Output-Spezifikationen.
Die wichtigsten Erkenntnisse:
- Rollenzuweisungen: Ja, aber kurz, funktional und task-aligned
- Reasoning: Durch Task-Struktur erzwingen, nicht verbal triggern
- Few-Shot: Weniger ist mehr – Qualität über Quantität
- Verbosity-Control: Parameter nutzen statt Phrasen wiederholen
- Struktur: Rolle → Ziel → Einschränkungen → Format → Beispiele
- Planning-First: Effektivste Technik über alle Modelle hinweg
Die Kunst des Prompting hat sich von einer kreativen zu einer engineeringgetriebenen Disziplin entwickelt. Wer das versteht, holt aus modernen LLMs deutlich mehr heraus als mit den Techniken von 2023.
Aber: Wer weiterhin einen freundlichen Stil mit der Maschine beibehalten möchte … auch hiermit kommt man zu guten Ergebnissen. Es dauert nur länger und hat einige Risiken, wenn man zu sehr ins Geplauder gerät.
Wem die Umstellung schwerfällt. Hier gibt es den Blogartikel dazu, wie man KI selbst dafür einsetzen kann, diese knallharten, durchstrukturierten Prompts zu entwickeln. Und das auf die althergebrachte Weise, sogar im freundlichen Ton miteinander.
Weitere Artikel zu diesem Themenfeld
Dieses Thema hat mehr Facetten, als ein einzelner Artikel abbilden kann. Hier sind Beiträge, die verschiedene Aspekte davon vertiefen:
