Ein Erfahrungsbericht aus der Praxis – für alle, die nicht nur zuschauen, sondern gestalten wollen
TL;DR Zusammenfassung
Wir verlassen die Phase des Denkens – jetzt geht es ums Handeln. In diesem Artikel zeige ich, wie sich eigene KI-Agenten aufbauen lassen, die weit mehr leisten als einfache Chatbots. Der Weg dorthin ist klar strukturiert: Zunächst braucht es ein Sprachmodell wie GPT-4 oder Gemini 2.0, das den Agenten mit „Verstand“ ausstattet. Im nächsten Schritt definieren wir konkrete Handlungsoptionen über APIs oder Tools wie Make.com – denn ein Agent muss nicht nur denken, sondern auch handeln können. Schließlich werden über präzise Instruktionen und Sicherheitsmechanismen („Guardrails“) die Spielregeln festgelegt, damit der Agent zuverlässig und verantwortungsvoll agieren kann. Das Beste: All das ist auch ohne tiefes Programmierwissen möglich – mit Low-Code oder No-Code. Wer Prozesse nicht nur automatisieren, sondern wirklich transformieren will, sollte genau hier ansetzen.
In meinen bisherigen Beiträgen habe ich vor allem eins deutlich gemacht: Wer KI-Agenten bauen möchte, sollte nicht beim Tool anfangen, sondern beim Denken (AI Agenten bauen beginnt bei der Aufgabenbeschreibung) Es geht nicht darum, eine neue Technologie in bestehende Prozesse zu drücken, sondern darum, Prozesse neu zu denken – aus der Perspektive von Intelligenz und Entscheidung statt bloßer Automatisierung. In einem weiteren Beitrag (Hinter die Kulissen autonomer AI Agenten) habe ich exemplarisch gezeigt, welche Erweiterung der Möglichkeiten manus.ai als Plattform für autonome Agenten uns bringt – und welche Komponenten dahinterstehen und wie sie prinzipiell zusammenarbeiten.
Doch Theorie und Denkweise sind nur die halbe Miete. Viele, mit denen ich gesprochen habe, sagen mir: „Ich finde das sehr spannend – aber ich weiß nicht, wo ich anfangen soll. Ich bin kein Entwickler, was soll ich tun?“
Genau hier setzt dieser Beitrag an: Was braucht es konkret, um selbst einen KI-Agenten zu bauen? Was steckt technisch dahinter – und wie viel davon kann ich mir auch als Nicht-IT-Profi zutrauen?
Was ist ein KI-Agent überhaupt – und was unterscheidet ihn von einem Chatbot?
Der Begriff „Agent“ wird aktuell inflationär genutzt – meist als Buzzword. Doch was verbirgt sich wirklich dahinter?
Ein KI-Agent ist ein System, das Aufgaben auf eigene Faust ausführt – also nicht nur auf Anfragen antwortet, sondern eigenständig entscheidet, welche Schritte notwendig sind, um ein Ziel zu erreichen. Das klingt abstrakt, wird aber sofort greifbar, wenn man es mit einem klassischen Chatbot vergleicht:
- Ein Chatbot ist darauf ausgelegt, vorgefertigte Antworten zu geben – meist auf Basis von klar definierten Regeln.
- Ein KI-Agent hingegen erkennt, was zu tun ist, entscheidet selbständig, wie er es tut, und führt diese Schritte aktiv aus.
Ein Beispiel: Ein Chatbot kann erklären, wie man eine Rechnung reklamiert. Ein KI-Agent kann genau diese Reklamation im System selbst durchführen – inklusive aller Zwischenschritte.
Wann lohnt sich ein Agent überhaupt?
Nicht jede Aufgabe braucht gleich einen KI-Agenten. Agenten sind besonders sinnvoll, wenn klassische Automatisierung scheitert. Das ist oft der Fall, wenn:
- Entscheidungen nicht eindeutig sind: Zum Beispiel wenn eine Rückerstattung geprüft werden muss und der Sachverhalt nicht klar ist.
- Regeln schwer wartbar sind: Wenn bestehende Prozesse aus vielen „Wenn-dann-Ausnahmen“ bestehen, die ständig angepasst werden müssen.
- Unstrukturierte Daten eine Rolle spielen: Zum Beispiel wenn Informationen aus E-Mails, PDFs oder Telefongesprächen verarbeitet werden müssen.
Ich habe es für mich so formuliert: Ein Agent lohnt sich immer dann, wenn Menschen heute Entscheidungen auf Basis von Kontext treffen – und man dafür bisher kein passendes Regelwerk gefunden hat.
Was aber auch nicht bedeuten soll, dass man einen AI Agent nur für die ganz großen, komplexen Aufgaben verwenden kann. Auch bei kleinen, überschaubaren Aufgaben ist ein eigener Agent eine große Arbeitserleichterung und sollte sofort angegangen werden.
Drei Bausteine:
Modell, Tools, Instruktionen – was wirklich nötig ist
Um selbst einen funktionierenden Agenten zu bauen, braucht es drei Dinge – und keine Sorge: Vieles davon lässt sich einfacher umsetzen, als man denkt.
(a) Das Modell: Das „Gehirn“ des Agenten
Im Zentrum steht ein großes Sprachmodell – wie GPT-4 oder GPT-3.5 von OpenAI, Gemeni 2.0 oder die Modelle von Mistral, Athopic oder DeepSeek. Dieses Modell übernimmt die „Denkarbeit“: Es interpretiert Aufgaben, trifft Entscheidungen und formuliert Antworten.
Wichtig: Nicht jedes Modell ist gleich. Ich beginne in der Regel mit dem leistungsfähigsten Modell (z. B. GPT-4, Gemini 2.0 flash), um eine funktionierende Basis zu haben. Danach kann man testen, ob günstigere oder schnellere Modelle (z. B. legacy GPT-3.5 oder individuelle Open Source Modelle) ausreichen.
Die Auswahl hängt ab von:
- Komplexität der Aufgabe
- Reaktionsgeschwindigkeit
- Kosten im Betrieb
Man sollte– und muss – mit kleinen Tests starten, bevor man große Systeme aufsetzt.
(b) Tools: Wie der Agent wirklich handeln kann, alleine oder im Team
Modelle alleine können nur sprechen. Wenn ein Agent aber handeln soll – z. B. eine Rechnung senden, Daten nachschlagen oder Termine buchen – braucht er Werkzeuge: andere KI-Spezialwerkzeuge, angebunden an sogenannte APIs (Application Programming Interface).
Eine API ist eine standardisierte Schnittstelle, mit der man auf Funktionen anderer Systeme zugreifen kann. Beispiel: Eine E-Mail-API erlaubt es einem Agenten, automatisch Nachrichten zu versenden. Eine CRM-API kann Kundeninformationen abrufen.
Die gute Nachricht: Man muss kein Programmierer sein, um APIs zu nutzen. Moderne Plattformen wie Make (make.com) oder Zapier ermöglichen es, API-Funktionen einfach per Drag-and-Drop zu verbinden. Viele Dienste bieten heute fertige Integrationen an.
Das heißt: Low-code/No-Code. Auch ohne eine Zeile Code programmieren zu können, kann ich einem Agenten Werkzeuge an die Hand geben, mit denen er aktiv wird.
(c) Instruktionen: Die Regeln, nach denen der Agent arbeitet
Ein oft unterschätzter Teil: Die Anleitung, wie der Agent denken und handeln soll. Das sind keine „Prompts“ im klassischen Sinne, sondern strukturierte Regeln – fast wie ein Playbook.
Ein Beispiel:
„Wenn der Nutzer eine Rückerstattung wünscht, prüfe zuerst den Rechnungsbetrag. Wenn dieser unter 100 €, genehmige automatisch. Bei höheren Beträgen frage nach dem Grund. Wenn der Grund plausibel ist, leite weiter an die Finanzabteilung.“
Diese Art von Logik lässt sich heute klar in Agentensysteme überführen. Oft hilft es, mit bestehenden internen Prozessbeschreibungen zu starten – die Agentenlogik folgt dann daraus.
Wie orchestriert man komplexere Prozesse?
(Und was ist überhaupt „Orchestrierung“?)
Der Begriff klingt technisch, meint aber etwas Alltägliches: Wie steuere ich mehrere Schritte in einem Ablauf – und wie verteile ich Aufgaben sinnvoll?
- Einzelagent: Für einfache Fälle reicht ein Agent, der mehrere Tools nutzt.
- Manager-Agent: Für komplexere Abläufe gibt es einen „Hauptagenten“, der Aufgaben an spezialisierte Unteragenten weitergibt.
- Dezentrale Agenten: In manchen Fällen arbeiten mehrere gleichwertige Agenten, die sich die Arbeit übergeben (z. B. bei unterschiedlichen Themen wie Support, Verkauf oder Logistik).
Welches Muster man wählt, hängt von der Aufgabenstellung ab. Ich habe gelernt: Lieber klein starten, mit einem Agenten – und dann nach Bedarf ausbauen.
Sicherheit und Verantwortung: Warum Guardrails unverzichtbar sind

Agenten entscheiden selbstständig – das bringt Potenzial, aber auch Risiken. Deshalb arbeite ich mit „Guardrails“: Sicherheitsbegrenzungen, die verhindern, dass der Agent Dinge tut, die er nicht tun soll.
Dazu gehören:
- Filter gegen gefährliche oder unangemessene Inhalte
- Begrenzungen bei kritischen Funktionen (z. B. keine Gutschrift über 500 € ohne Freigabe)
- Schutz sensibler Daten (z. B. keine Weitergabe von Kundendaten)
Viele dieser Funktionen lassen sich heute einfach aktivieren – über Plattformen wie OpenAI oder über zusätzliche Sicherheits-Tools.
Mensch und Maschine: Warum Human-in-the-Loop kein Rückschritt ist

Gerade am Anfang ist es wichtig, dass Menschen eingebunden bleiben. Der Agent darf nicht blind handeln. Denn nicht vergessen, auch wenn eine KI für uns Aufgaben übernommen und Entscheidungen getroffen hat, so sind doch wir dafür voll verantwortlich. So sind die Gesetze dazu. Und auch der EU AI Act (Was Sie zum EU AI Act jetzt wissen müssen) besteht darauf.
Deshalb setze ich auf:
- Eskalationsmechanismen: Wenn der Agent unsicher ist oder eine Grenze überschreitet, wird ein Mensch eingebunden.
- Beobachtung und Feedback: Nur durch echte Nutzung erkenne ich, wo der Agent zuverlässig arbeitet – und wo nicht.
Das Ziel ist nicht vollständige Autonomie, sondern sinnvolle Unterstützung. Und genau das ist heute erreichbar.
Neugierig geworden?
Wer das Thema praktisch vertiefen will, dem empfehle ich diesen Workshop:
🔗 Eigene KI-Agenten mit ChatGPT erstellen – Digitalzentrum Berlin
Ein praxisnaher Einstieg – perfekt für alle, die nicht nur zuschauen, sondern gestalten wollen.
Weitere Artikel zu diesem Themenfeld
Dieses Thema hat mehr Facetten, als ein einzelner Artikel abbilden kann. Hier sind Beiträge, die verschiedene Aspekte davon vertiefen:
