Die Evolution der KI-Hardware: Vom CPU-Zeitalter zur spezialisierten KI-Chip-Ära

Computing hat eine neue Priorität. Es geht nicht mehr nur um schnellere Prozessoren oder leistungsfähigere Grafikkarten – es geht um spezialisierte Hardware, die effizient, skalierbar und zukunftssicher ist. Besonders im Bereich der Künstlichen Intelligenz (KI) hat sich gezeigt: Allgemeine Hardware reicht nicht aus. Wer wettbewerbsfähig bleiben will, muss verstehen, welche Chip-Architekturen welche Rolle spielen – und wie sich die Anforderungen an Entwickler und Anwender weiterentwickeln.

Die Basis:
CPUs – der Allrounder mit Grenzen

Lange Zeit war die Central Processing Unit (CPU) das Zentrum jeder Berechnung. Egal ob Textverarbeitung, Tabellenkalkulation oder komplexe Simulationen – CPUs sind für die serielle Verarbeitung von Aufgaben gebaut. Das bedeutet: Sie können viele verschiedene Berechnungen durchführen, aber meist nur in einer begrenzten Anzahl paralleler Prozesse.

CPUs sind optimal für allgemeine Rechenaufgaben, geraten aber an ihre Grenzen, wenn es um hochgradig parallele Berechnungen geht – beispielsweise das Rendern von 3D-Grafiken oder das Training von neuronalen Netzwerken. Ein Problem, das Ende der 90er Jahre besonders in der Gaming-Industrie offensichtlich wurde.

Die GPU-Revolution:
Parallelisierung als Schlüssel zur Leistungsexplosion

Eine NVIDIA RTX 3090 in einem unserer KI-Demonstratoren-Rechner (plus Mega-Lüfter für die CPU). Wie energiehungrig selbst so eine Consumer-Grafikkarte ist, zeigt sich schon durch drei parallele Stromanschlüsse an einem 850 Watt-Netzteil.

Grafikkarten (GPUs) wurden ursprünglich entwickelt, um komplexe Grafiken in Echtzeit zu berechnen. Ihr Vorteil: Massive Parallelisierung. Während eine CPU mit wenigen Hochleistungs-Kernen arbeitet, verfügen GPUs über tausende kleiner Recheneinheiten, die simultan arbeiten können. Perfekt für die aufwendigen Berechnungen, die bei 3D-Spielen notwendig sind – und wie sich später herausstellte, auch ideal für KI-Workloads.

Warum? Weil neuronale Netzwerke im Kern nichts anderes tun als hochgradig parallele Matrixberechnungen. NVIDIA erkannte früh das Potenzial und entwickelte CUDA, eine Plattform, die Entwicklern direkten Zugriff auf die Rechenleistung der GPU gibt. Ein Gamechanger für die KI-Forschung, während Konkurrenten wie AMD lange Zeit nur auf Grafikoptimierung fokussiert blieben.

Aber GPUs sind nicht perfekt. Sie sind leistungsstark, aber auch energiehungrig. Sie sind flexibel, aber nicht speziell für KI optimiert. Und sie skalieren nur bedingt effizient. Deshalb setzt die Branche heute nicht nur auf mehr GPUs, sondern auch auf neue, spezialisierte Hardware.

KI-GPUs:
Der Unterschied zwischen Gaming und AI-Beschleunigern

Mehrere NVIDIA A100 im HPI-Rechenzentrum

Eine NVIDIA A100 Tensor Core GPU ist keine Gaming-Grafikkarte. Sie ist ein Monster für Deep Learning, mit speziellen Tensor-Kernen für beschleunigte Matrixmultiplikationen, die im Machine Learning essenziell sind. Eine RTX 4090, die aktuell eine der leistungsstärksten Consumer-GPUs ist, wurde für 3D-Rendering und Gaming-Physik gebaut. Sie kann zwar für KI genutzt werden, aber ihre Architektur ist nicht für den reinen KI-Betrieb optimiert.

Der Unterschied? Während eine RTX 4090 auf maximale Performance bei Spielen ausgelegt ist, bietet eine A100:
Mehr VRAM (bis zu 80 GB vs. 24 GB)
Effizientere Berechnungen für neuronale Netzwerke
Bessere Skalierbarkeit für den Cluster-Betrieb

In unserem aktuellen Projekt setzen wir auch vier dieser A100-GPUs ein, um KI-Demonstratoren zu entwickeln. Doch auch hier gilt: GPUs sind nicht das Ende der Entwicklung. Sie sind die beste Übergangslösung – aber es gibt bereits effizientere Alternativen.

Was sind Tensorkerne und was macht sie so besonders für KI?

Tensor-Kerne sind eine Schlüsseltechnologie, die von NVIDIA bereits 2017 entwickelt wurde, um die speziellen Berechnungen in Künstlicher Intelligenz (KI) effizienter zu machen. KI-Modelle basieren auf sogenannten Matrixoperationen – das sind Berechnungen, bei denen große Datenmengen gleichzeitig verarbeitet werden. Ein typisches Beispiel ist das Training eines neuronalen Netzwerks, bei dem Millionen von Zahlen in riesigen Tabellen ständig miteinander multipliziert und addiert werden.

Tensor-Kerne sind speziell für diese Art von Aufgabe entwickelt und können Matrixberechnungen viel schneller durchführen, als es herkömmliche GPU-Kerne oder CPUs könnten. Besonders clever ist, dass Tensor-Kerne mit gemischter Präzision arbeiten: Sie kombinieren Berechnungen mit hoher Genauigkeit (32-Bit) mit schnelleren, energieeffizienteren Operationen (16-Bit). Das spart Energie und beschleunigt die Berechnungen, ohne dass die Ergebnisse ungenau werden.

Tensor-Kerne ermöglichen es, dass KI-Modelle schneller trainiert und ausgeführt werden können – ein entscheidender Vorteil, wenn Unternehmen KI-Lösungen entwickeln oder in ihre Prozesse integrieren wollen. Ihre GPUs, wie die A100 oder die neuere H100, setzen Maßstäbe, die andere Hersteller bislang nicht erreichen konnten. Aber die Denkweise ändert sich langsam.

Der professionelle AI-Einsatz von GPUs

Im Trainingsbetrieb für große KI-Modelle, wie beispielsweise ChatGPT-4 von OpenAI, laufen solche Tensor-GPUs auf einem spezialisierten Serverbetriebssystem, meist auf Linux basierend, optimiert für die Anforderungen von verteiltem Training. OpenAI nutzte schätzungsweise über 10.000 A100-GPUs, um die Trainingslast für GPT-4 zu bewältigen (Eine dieser Karten kostet aktuell für den Endverbraucher ca. 18-20.000 €. Bei Abnahme von 10.000 Stück gab es aber sicher einen Mengenrabatt 🙂 ).

Diese Rechenzentren für 10.000 + Karten sind entsprechend gigantisch – einige der größten Anlagen der Welt umfassen Millionen von Servern, die riesige Mengen an Daten speichern und verarbeiten.

Auch für den täglichen Betrieb von KI-Modellen („Inference“ genannt, also das Generieren von Antworten) kommen wieder GPUs wie die A100 zum Einsatz, da sie selbst hier schneller und effizienter arbeiten als andere Hardware. Rechenzentren dieser Größenordnung benötigen nicht nur immense Infrastruktur, sondern auch erhebliche Energiemengen – weshalb die Industrie stark daran arbeitet, effizientere Lösungen zu entwickeln. Um dem mit Training und Betrieb verbundenen immensen Energiehunger irgendwie gerecht zu werden und die Auswirkungen auf die Umwelt im Griff zu halten, stehen solche Rechenzentren zum Beispiel in Island, wo sie durch Außenluft gekühlt und über geothermische Energie mit Strom versorgt werden können. Google denkt inzwischen auch über MIni-Kernkraftwerke nach …

GPUs sind heute das KI-Rückgrad.
Die Zukunft gehört aber den Spezialisten: NPUs, TPUs & Co.

GPUs sind stark – aber nicht optimal für KI. Sie wurden nicht dafür entwickelt, sondern nur angepasst. Der nächste logische Schritt sind Prozessoren, die von Grund auf für KI-Workloads konzipiert wurden.

1. NPUs – Neural Processing Units

Apple und Microsoft machen es vor: KI muss nicht nur auf Servern laufen, sondern direkt auf Endgeräten. Neural Processing Units (NPUs) sind spezialisierte Chips, die KI-Workloads energieeffizient ausführen.

Beispiele:
Apple M3-Chip: Enthält eine NPU für On-Device-KI in MacBooks und iPhones.
Microsoft Copilot+ PCs: Erste Notebooks mit NPUs für beschleunigte KI-Funktionen.

Was bringt das? Energieeffizienz, Geschwindigkeit und Datenschutz. Während GPUs im Serverraum arbeiten, sorgen NPUs dafür, dass KI auf jedem Laptop oder Smartphone in Echtzeit funktioniert.

2. TPUs – Googles Speziallösung für Machine Learning

Google hat mit seinen Tensor Processing Units (TPUs) eine weitere Klasse geschaffen: Chips, die explizit für neuronale Netzwerke optimiert sind. Sie sind extrem effizient für Training und Inferenz von KI-Modellen – und ein Grund, warum Google mit TensorFlow so erfolgreich ist.

3. Groq – Die nächste Stufe der Beschleunigung

Ein weiterer vielversprechender Ansatz kommt von Groq, einem Unternehmen, das eine völlig neue Architektur für KI-Beschleunigung entwickelt hat. Ihr LPU (Language Processing Unit) verarbeitet KI-Modelle mit enormer Geschwindigkeit, während GPUs oft mit Speicherbandbreite kämpfen.

Der Vorteil?
Höhere Geschwindigkeit bei geringerer Energieaufnahme
Spezialisiert auf Inferenz (Anwendung von KI-Modellen), nicht nur Training
Kein Bedarf an komplexen Speicherhierarchien wie bei GPUs

Groq zeigt, dass spezialisierte Chips nicht nur die KI-Entwicklung beschleunigen, sondern auch deren Betrieb effizienter machen können.

Wer einmal selbst ausprobieren möchte, wie schnell Antworten eines LLM über einen groq-Chips schießen, kann das auf dem Groq-Playground kostenlos ausprobieren (und nebenbei kostenfrei verschiedene LLMs testen): https://console.groq.com/playground

Fazit: Die KI-Hardware spezialisiert sich – und wir alle können davon profitieren

Die Entwicklung zeigt: Es gibt nicht die eine perfekte Hardware für KI.
– Entwickler brauchen spezialisierte Prozessoren, um Modelle effizient zu trainieren.
– Anwender profitieren von On-Device-KI durch NPUs und spezialisierte Chips.
– Unternehmen müssen ihre Hardware-Strategien überdenken, weil klassische GPUs an ihre Grenzen stoßen.

Und das Spannendste: Die großen Technologieunternehmen können und wollen nicht einfach weiter Tausende GPUs zusammenschalten, um größere Modelle zu entwickeln. Der Energieverbrauch explodiert. Deshalb treiben sie die Chip-Industrie an, effizientere Lösungen zu bauen.

Wir stehen an einem Wendepunkt: Von der GPU-Ära zur spezialisierten KI-Hardware. Wer die nächsten Jahre erfolgreich gestalten will – ob als Entwickler oder als Anwender – muss sich auf diesen Wandel vorbereiten.

Zum Schluß noch eine Gedankenspiel: Mit einer NVIDIA A100 in neue Dimensionen des Videogamings kommen?

Konkret: könnte man mit einer A100 auch ein Videospiel spielen? Immerhin ist das ja eine GPU. Und tatsächlich, theoretisch ist das möglich, da die A100 auf denselben GPU-Architekturen basiert wie Gaming-Karten. Allerdings ist die A100 für wissenschaftliche und KI-Berechnungen optimiert, nicht für grafisches Rendering. Hinzu kommt, dass sie sich physisch nicht in einem Standard-PC installieren lässt – sie ist für Server- und Rechenzentrumsumgebungen gebaut. Alternativ könnte man ein Spiel auf einer A100 laufen lassen, die in einem Rechenzentrum installiert ist, doch das wäre ineffizient und kostenintensiv. Aber dann müsste man auch das Spiel auf die Zusammenarbeit mit einem solchen GPU-Boliden durch den Hersteller des Spiels anpassen. Oder es selbst wagen. Aber das ist dann vielleicht doch etwas zu viel …

Welche KI-Hardware nutzt ihr aktuell – und welche Entwicklungen beobachtet ihr besonders interessiert? 🚀