Was ein LLM wirklich ist

Mehr als "Wörter vorhersagen"

Die Kurzerklärung für Large Language Models lautet: "Das Modell sagt das nächste Wort vorher." Das stimmt — beschreibt aber nur, was ein LLM tut, nicht was es ist. Wer KI im Unternehmen sinnvoll einsetzen will, sollte beides unterscheiden können.

In dieser Lektion schauen wir uns an, was ein LLM technisch ist: woher seine Fähigkeiten kommen, was beim Training passiert und warum die Begriffe Token, Parameter und Fine-Tuning im Alltag relevant werden.

Ein riesiges neuronales Netz

Ein Large Language Model wie Claude, GPT oder Gemini ist im Kern ein neuronales Netz. Das ist keine Datenbank, kein Regelwerk und kein Suchindex, sondern eine mathematische Struktur mit Milliarden von Zahlenwerten, sogenannten Parametern oder Gewichten.

Ein modernes Frontier-Modell hat typischerweise mehrere hundert Milliarden Parameter. Diese Parameter sind nicht manuell programmiert. Sie entstehen im Training, wenn das Modell Text für Text durcharbeitet und die Gewichte so anpasst, dass es Sprache zunehmend besser vorhersagen kann.

Wichtig ist: Parameter speichern keine Fakten, wie eine Datenbank Datensätze speichert. Sie codieren statistische Muster. Dass Paris die Hauptstadt Frankreichs ist, steckt nicht als Eintrag in einer Tabelle, sondern als Muster, das sich aus Tausenden von Textstellen ergibt, in denen "Paris" und "Hauptstadt" und "Frankreich" gemeinsam auftreten.

Training: wie ein LLM zu dem wird, was es ist

Das Training eines großen Sprachmodells läuft in mehreren Phasen ab.

Phase 1: Pretraining. Das Modell wird mit einem riesigen Textkorpus gefüttert — Webseiten, Bücher, wissenschaftliche Arbeiten, Code-Repositories, Foren. Die Aufgabe ist einfach und repetitiv: Lies den Anfang eines Textes, sag das nächste Token vorher, vergleiche mit der tatsächlichen Fortsetzung, passe die Parameter leicht an. Das wiederholt sich Billionen Mal.

Das Ergebnis ist ein Modell, das sehr viel über Sprache, Welt und Zusammenhänge "weiß" — weil sich dieses Wissen implizit aus den Trainingsdaten ergibt. Noch ist das Modell aber nicht hilfreich. Es kann nur fortsetzen, nicht antworten.

Phase 2: Supervised Fine-Tuning. Menschliche Trainerinnen und Trainer schreiben Beispielantworten auf Beispielfragen. Das Modell lernt, auf Aufforderungen in einem hilfreichen Ton zu reagieren, statt den Text zufällig fortzuführen.

Phase 3: Reinforcement Learning from Human Feedback (RLHF). Das Modell produziert mehrere Antworten auf dieselbe Frage, Menschen bewerten sie, und das Modell lernt, Antworten zu bevorzugen, die als hilfreich, sicher und ehrlich eingestuft wurden.

Erst nach diesen drei Phasen entsteht das, was wir heute als "Chatbot" oder "Assistenten" kennen. Ein reines Pretraining-Modell klingt oft unbeholfen und weigert sich nicht, gefährliche Inhalte zu produzieren. Die "Persönlichkeit" eines KI-Assistenten ist also nicht im Pretraining entstanden, sondern in der Nachbearbeitung.

Tokens: die eigentlichen Bausteine

Sprachmodelle arbeiten nicht mit Wörtern, sondern mit Tokens. Ein Token ist eine kleine Einheit, die das Modell als Ganzes verarbeitet — oft ein Wortstamm, eine Silbe, ein Satzzeichen oder ein häufiges Wortfragment.

Ein paar Beispiele aus der Praxis moderner Tokenizer:

Das Wort "Haus" ist ein einziges Token.
"Versicherungsvertragsgesetz" wird in mehrere Tokens zerlegt: etwa "Versicher", "ungs", "vertrag", "sgesetz".
Englische Texte brauchen im Schnitt deutlich weniger Tokens als deutsche — was auch erklärt, warum deutsche Prompts bei Modellen mit englischem Fokus schneller an Längengrenzen stoßen.

Für den Arbeitsalltag heißt das: Wenn ein Anbieter "200.000 Tokens Kontextlänge" angibt, entspricht das grob 140.000 bis 150.000 deutschen Wörtern. Wer Kosten oder Längen abschätzen will, sollte Tokens, nicht Wörter zählen.

Was ein LLM nicht ist

Diese technische Sicht macht einige Missverständnisse sofort greifbar:

Ein LLM ist keine Datenbank. Es schlägt nichts nach, es rechnet. Wenn Sie nach einer Kennzahl fragen, rekonstruiert das Modell die wahrscheinlichste Antwort aus gelernten Mustern — auch wenn es die konkrete Zahl nie gesehen hat.

Ein LLM ist keine Suchmaschine. Es hat kein aktives Gedächtnis der Trainingsdaten und kann nicht "in seinem Wissen suchen". Alles, was es produziert, entsteht als Vorhersage im Moment der Anfrage.

Ein LLM ist nicht statisch identisch zu sich selbst. Zwei Anfragen mit demselben Prompt können unterschiedliche Antworten ergeben. Das liegt an einem Zufallsanteil im Sampling, den wir in einer späteren Lektion beleuchten.

Warum das im Unternehmen relevant ist

Wer die Funktionsweise versteht, trifft bessere Entscheidungen:

Sie wissen, warum Halluzinationen strukturell unvermeidbar sind. Ein Modell, das Muster statt Fakten speichert, kann Muster auch dort anwenden, wo sie nicht passen.
Sie können einschätzen, wofür Fine-Tuning sinnvoll ist und wofür nicht. Ein Fine-Tuning verändert Ton und Stil, ersetzt aber keine aktuellen Fakten.
Sie verstehen, warum dieselbe Frage in Englisch und Deutsch unterschiedliche Qualität liefern kann. Die Trainingsdaten sind nicht gleichverteilt.
Sie können mit Anbietern auf Augenhöhe sprechen, wenn es um Parameter, Tokens oder Kontextlängen geht.

Im nächsten Kapitel schauen wir uns an, was zwischen Ihrem Prompt und der Antwort konkret passiert: wie eine Anfrage in Tokens zerlegt wird, wie das Modell Token für Token weiterschreibt und welche Rolle Parameter wie Temperature dabei spielen.

Wissenscheck

Was sind Parameter in einem Large Language Model?

Warum ist die Tokenisierung für das Verständnis eines LLM wichtig?