Die Entstehung eines LLMs: Von der Idee zum laufenden Modell

Wir nutzen große Sprachmodelle (Large Language Models, LLMs) inzwischen täglich so selbstverständlich, wie unser Smartphone. Aber so wie die Meisten von uns keine Ahnung haben, wie dieser am Herz getragene, tägliche Lebensbegleiter (und -Retter) Smartphone eigentlich funktioniert, so haben die Meisten von uns sich noch keine Gedanken darüber gemacht, wie diese LLM-Wunderwerke entstehen. Das ändert sich mit diesem Blogbeitrag.

Der Weg von der ersten Idee bis zu einem voll funktionalen Modell ist lang und komplex. Hinter jedem LLM steckt eine faszinierende Geschichte aus Wissenschaft, Ingenieurskunst und einer gehörigen Portion Experimentierfreude.

Wie wird ein LLM eigentlich entwickelt? Von der theoretischen Planung bis zum Betrieb eines Modells nehme ich euch Schritt für Schritt mit in diesen Prozess.

1. Die Idee – Was soll das Modell können?

Ich empfehle jedem, sich vor der Umsetzung einer ersten Idee intensiv damit auseinander zu setzen, Ziel, Zweck, Zielgruppe und Funktionen zu durchdenken und auch zu schauen, „ob das die Welt braucht“.

Bei einem Projekt, das hunderte von Millionen verschlingen wird, ist das beonders einleuchtend, erstmal die Idee tief zu entwickeln und zu hinterfragen.

Der Startpunkt eines LLMs ist immer eine Frage: Was soll dieses Modell grundsätzlich leisten? Soll es Texte schreiben, Kundenfragen beantworten, Programmcode generieren oder Inhalte klassifizieren? Oder Bilder generieren? Oder gesprochene Sprache verstehen? Oder sprechen können? Oder beides? Oder alles zusammen?
Hier werden die Anwendungsfälle definiert – und zwar so konkret wie möglich, denn es startet ein hochkomplexer Prozess, der nicht mittendrin verändert werden kann.

Beispiel: Ein Modell, das als virtueller Assistent dienen soll, benötigt Daten zu Alltagsfragen, kulturellem Kontext und einer hohen Bandbreite an Themen. Ein Modell für medizinische Forschung hingegen braucht spezialisierte Daten und umfangreiches Domänenwissen.

Die zentralen Entscheidungen in dieser Phase:

  1. Zielgruppe: Wer wird das Modell nutzen? Unternehmen? Entwickler? Konsumenten?
  2. Sprachraum: Wird das Modell nur eine Sprache verstehen oder mehrere?
  3. Umfang und Tiefe: Soll es breit aufgestellt sein oder sich auf ein Fachgebiet spezialisieren?
  4. Datenanforderungen: Welche Art von Daten ist verfügbar und erlaubt? Datenschutz und ethische Überlegungen spielen hier eine wesentliche Rolle.

Schon hier beginnt die erste Herausforderung: Die Qualität eines LLMs hängt maßgeblich von der Qualität seiner Trainingsdaten ab. Datenbeschaffung ist deshalb ein Schlüsselfaktor und oft zeitintensiver, als man vermuten würde.

Ohne Daten ist jede KI nichts!

2. Die Architektur – Das technische Fundament legen

Die Wahl der Architektur ist entscheidend. Aktuelle LLMs basieren meist auf der Transformer-Architektur, die 2017 in der Arbeit „Attention is All You Need“ (LINK Artikel zum Paper in Wikipeda; LINK vollständiges Dokument bei Cornell University) eingeführt wurde (übrigens waren zwei der 8 Autoren dieses für LLMs grundlegenden Research Paper Deutsche). Dieses Modellprinzip ermöglicht es, riesige Datenmengen effizient zu verarbeiten und Zusammenhänge zwischen Wörtern oder Konzepten zu verstehen. Siehe dazu auch meinen Blogbeitrag zu „Vektorisierung von Daten – Die geheime Sprache der Künstlichen Intelligenz.“

Wichtige Entscheidungen in dieser Phase:

  • Modellgröße: Wie viele Parameter soll das Modell haben? Größere Modelle können oft besser generalisieren, sind aber auch ressourcenintensiver.
  • Layer-Tiefe: Wie viele Schichten soll das neuronale Netz haben? Tiefer bedeutet oft komplexer, aber auch schwieriger zu trainieren.
  • Hardwareanforderungen: Ein Modell mit 175 Milliarden Parametern, wie GPT-3, benötigt Tausende GPUs oder TPUs und enorme Speicherkapazitäten. (einen Blogbeitrag zu den verschiedenen Chip-Typen im KI-Einsatz findet ihr hier:
    Die Evolution der KI-Hardware: Vom CPU-Zeitalter zur spezialisierten KI-Chip-Ära)

Hier wird auch der Grundstein für die Trainingszeit gelegt: Entwicklerteams schätzen, wie viele Iterationen (sogenannte Trainings-Epochen) nötig sind, und kalkulieren die benötigte Hardwareleistung. Für große Modelle sind Wochen oder Monate im Trainingsbetrieb keine Seltenheit. Und schon kann man seinen potentiellen Investoren eine ziemlich genau berechenbare Zahl nennen: Die immensen Kosten für das Training.

3. Das Team – Die Köpfe hinter dem Modell

Ein LLM zu entwickeln, ist ein interdisziplinäres Projekt. Die Kernrollen sind:

  • Machine-Learning-Forscher: Entwickeln die Architektur und Algorithmen.
  • Data Engineers: Verantwortlich für die Datenaufbereitung und Qualitätssicherung.
  • Infrastruktur-Experten: Planen und betreiben die Hardware-Infrastruktur.
  • Ethik- und Compliance-Experten: Überwachen den ethischen Einsatz der Daten und die Einhaltung gesetzlicher Vorgaben.

Für ein großes Projekt wie GPT-4 braucht es Hunderte von Fachleuten, die eng zusammenarbeiten. Kleine Teams in Start-ups oder Unternehmen mit spezifischen Anforderungen arbeiten oft mit spezialisierten Dienstleistern zusammen.

4. Daten, Daten, gebt mir Daten!!!

Der Satz „Garbage in, garbage out“ trifft auf LLMs besonders zu. Ein Modell kann nur so gut sein wie die Daten, mit denen es trainiert wird.

Woher kommen die Daten?

  • Öffentliche Datenquellen: Webseiten, Bücher, wissenschaftliche Artikel.
  • Lizenzierte Daten: Spezialisierte Datenbanken oder firmeneigene Inhalte.
  • Generierte Daten: In einigen Fällen werden synthetische Daten erstellt, um spezifische Szenarien abzudecken.

Die Daten müssen gereinigt, gefiltert und anonymisiert werden, um Verzerrungen und ethische Probleme zu vermeiden. Hier zeigt sich: Je spezifischer das Ziel des Modells, desto anspruchsvoller ist die Datenvorbereitung.

Problematisch ist dabei, dass inzwischen ein signifikanter Anteil der neu verfügbaren Daten im Internet etc. nicht mehr vom Menschen erzeugt wurde, sondern bereits von anderer Künstlicher Intelligenz. Was das für das Training von Modellen bedeutet, dazu findet Ihr den Blogbeitrag „KI-generierter Content als Training für moderne LLMs – Eine unterschätztes Problem“ hier LINK

5. Das Training – Das Herzstück der Entwicklung

Das Training eines LLMs ist ein iterativer Prozess, der auf einer riesigen Recheninfrastruktur abläuft. OpenAI nutzte für GPT-4 mehr als 10.000 NVIDIA A100 GPUs, verteilt auf große Rechenzentren. Der Energieverbrauch solcher Systeme ist enorm – ein Grund, warum Effizienz immer wichtiger wird.

So läuft das Training ab (Kurzfassung):

  1. Daten werden in den Speicher geladen: Die Hardware verarbeitet Daten in kleinen „Batches“, um die Speicheranforderungen zu optimieren.
  2. Forward Pass: Das Modell macht Vorhersagen auf Basis der Eingangsdaten.
  3. Backward Pass: Ein Fehlerwert (Loss) wird berechnet, um zu messen, wie falsch die Vorhersagen waren.
  4. Anpassung: Die Modellparameter werden so angepasst, dass der Fehler minimiert wird.

Dieser Prozess wiederholt sich millionenfach. Während des Trainings überprüft das Team regelmäßig, ob das Modell in die richtige Richtung lernt, indem es Zwischenstände validiert und Overfitting (zu starkes Anpassen an Trainingsdaten) vermeidet.

Wer tiefer einsteigen möchte und auch Begriffe wie „Batches“ oder „Forward Pass“ verstehen möchte, in meinem Blogbeitrag „Ein vertiefter Blick in die Trainingsschritte eines LLMs“ gehe ich deutlich detaillierter auf die einzelnen Schritte des Trainingsprozesses ein (LINK).

6, Stolpersteine im Entwicklungsprozess

Während des Trainings können verschiedene, hochdramatische Probleme auftreten, die alle Arbeit zunichte macht:

  • Interferenz: Das Modell lernt widersprüchliche Informationen aus den Daten und wird dadurch weniger genau.
  • Collapse: Das Modell verliert seine Fähigkeit zu generalisieren und „vergisst“, wie es flexibel antworten soll.
  • Bias: Verzerrungen in den Daten führen zu unfairen oder unerwünschten Antworten.

7. Guardrails – Grenzen setzen

Nach dem Training werden Guardrails eingebaut, um sicherzustellen, dass das Modell bestimmte Richtlinien einhält. Dazu gehören:

  • Filter für unerwünschte Inhalte: Damit das Modell keine schädlichen oder beleidigenden Ausgaben erzeugt.
  • Ethik-Frameworks: Um Diskriminierung und Verzerrungen zu minimieren.

Hier spielt die enge Zusammenarbeit zwischen Entwicklern und Ethik-Teams eine entscheidende Rolle.
Zum Thema Guardrails, wie sie gesetzt werden, wer eintscheidet und wie sie im System funktionieren (und wie man sie zu umgehen versucht) habe ich einen separaten Blogartikel geschrieben, den Ihr hier findet: LINK

8. Der Betrieb – Das Modell im Alltag

Das Ziel ist erreicht, das Modell läuft, es liefert sinnvolle Antworten, alle sind stolz, jetzt muss es in den Betrieb gehen.

In der Praxis laufen viele LLMs weiterhin auf GPUs oder TPUs in Rechenzentren. Der tägliche Betrieb (Inference) benötigt ebenfalls erhebliche Ressourcen, allerdings weniger als das Training.

Wichtige Aspekte im Betrieb:

  • Skalierbarkeit: Wie viele Anfragen kann das System gleichzeitig bewältigen?
  • Wartung: Regelmäßige Updates und Überprüfungen, um die Leistung zu optimieren.
  • Monitoring: Modelle müssen ständig überwacht werden, um neue Probleme (z. B. Bias) zu identifizieren.

Theoretisch könnte man im gleichen Rechenzentrum, auf den gleichen Maschinen wie für das Training auch den Betrieb durchführen.

Der Betrieb hat aber geringere Anforderungen an das Training und das Zusammenspiel der Komponenten ist anders. Daher ist es eher so, dass der Betrieb in einer anderen Konfiguration und damit im Zweifel auch in anderen Rechenzentren stattfinden und das bisherige Trainingscenter für das Training der nächsten Modellgeneration vorbereitet wird. Denn bevor der eine Modell zuende trainiert und optimiert ist, kam schon die nächste Idee für das nächste, größere, omnipotentere oder spezialisiertere Modell. Momentan haben wir hier einen laufenden Übergang, was sich auch an der Schnelligkeit, in der neue Modelle vorgestellt werden zeigt.

Fazit: Ein Marathon, kein Sprint

Die Entwicklung eines LLMs ist ein enorm komplexer Prozess, der technisches Know-how, strategische Planung und interdisziplinäre Zusammenarbeit erfordert. Doch der Aufwand lohnt sich: Ein gut entwickeltes LLM kann nicht nur Aufgaben automatisieren, sondern Unternehmen einen Wettbewerbsvorteil verschaffen.

Eure Gedanken dazu? Welcher Schritt hat euch am meisten überrascht? 🚀