Wie eine Antwort entsteht

Vom Prompt zur Antwort: was dazwischen passiert

Sie tippen eine Frage in ein Chatfenster. Sekunden später erscheint die Antwort. Was in dieser Zeit passiert, ist kein einzelner Schritt, sondern eine Kette aus mehreren Teiloperationen. Wer sie kennt, versteht, warum dieselbe Frage zu unterschiedlichen Antworten führen kann — und wo die Stellschrauben sitzen, die Qualität und Konsistenz bestimmen.

Schritt 1: Tokenisierung der Eingabe

Bevor das Modell irgendetwas "denkt", wird Ihr Text in Tokens zerlegt. Aus dem Satz "Welche Risiken bestehen beim KI-Einsatz?" werden etwa acht bis zwölf Tokens, abhängig vom eingesetzten Tokenizer.

Tokenisierung ist nicht trivial. Die Sprache wird in Einheiten zerlegt, die das Modell während des Trainings am häufigsten gesehen hat. Seltene Wörter brechen in mehrere Tokens auf, häufige Wörter bleiben ganz. Das erklärt, warum deutsche Fachbegriffe (z. B. "Datenschutz-Folgenabschätzung") mehr Tokens verbrauchen als englische Entsprechungen.

Diese Tokens werden in Zahlenvektoren übersetzt, mit denen das neuronale Netz rechnen kann. Aus Ihrem Prompt wird also eine Folge von Zahlen.

Schritt 2: Attention — was wichtig ist und was nicht

In der ersten Lektion haben wir gesehen, dass ein LLM auf einem neuronalen Netz mit Milliarden Parametern basiert. Die zentrale Architektur, die moderne Sprachmodelle so leistungsfähig gemacht hat, heißt Transformer. Das Herz eines Transformers ist der Attention-Mechanismus.

Vereinfacht: Das Modell fragt bei jedem neuen Token, welche Tokens weiter vorne im Text jetzt besonders relevant sind. In einem Satz wie "Der Bericht, den die Abteilung gestern abgeschickt hat, enthält Fehler" verknüpft Attention das Wort "enthält" mit dem weit entfernten Subjekt "Bericht" — nicht mit "Abteilung" oder "gestern".

Attention ist der Grund, warum LLMs lange Zusammenhänge erkennen können, nicht nur die letzten paar Wörter. Sie ist gleichzeitig der Grund, warum das Modell mit sehr langem Kontext rechnerisch teurer wird.

Schritt 3: Die Wahrscheinlichkeitsverteilung

Nach dem Durchlauf durch das Netz hat das Modell eine Wahrscheinlichkeitsverteilung über den gesamten Token-Wortschatz — oft mehrere zehntausend Tokens. Jedes Token bekommt einen Wert, der angibt, wie wahrscheinlich es das nächste ist.

Bei einer Anfrage wie "Die Hauptstadt von Frankreich ist" sieht die Verteilung ungefähr so aus:

"Paris": sehr wahrscheinlich
"die": mittel wahrscheinlich (als Vorbote von "die Stadt Paris")
"eine": niedrig wahrscheinlich
Alles andere: sehr unwahrscheinlich

Jetzt muss das Modell aus dieser Verteilung ein konkretes Token auswählen. Dieser Schritt heißt Sampling.

Schritt 4: Sampling und die Rolle von Temperature

Das einfachste Sampling wäre: nimm immer das wahrscheinlichste Token. Das nennt man Greedy Decoding. Es liefert deterministische, aber oft fade Antworten, die sich wiederholen.

Deshalb wird in der Praxis fast immer randomisiert. Zwei Parameter sind dabei entscheidend:

Temperature. Die Temperature (oft zwischen 0.0 und 1.5) steuert, wie "flach" oder "spitz" die Wahrscheinlichkeitsverteilung interpretiert wird. Eine niedrige Temperature (0.2) lässt das Modell fast immer die wahrscheinlichsten Tokens wählen — konsistent und faktenorientiert. Eine hohe Temperature (1.0) lässt auch ungewöhnlichere Tokens realistisch werden — kreativer, aber instabiler.

Top-p (Nucleus Sampling). Statt fest zu sagen "die Top-10 Tokens" wählt Top-p die kleinste Gruppe, deren kumulierte Wahrscheinlichkeit p ergibt — zum Beispiel 90 %. Das passt sich dynamisch an die Situation an: Bei klaren Fakten ist die Gruppe klein, bei offenen Fragen größer.

Für den Alltag heißt das: Wenn Sie über eine API oder spezialisierte Tools auf Modelle zugreifen, können Sie diese Parameter selbst setzen. In Standard-Chatoberflächen (Claude.ai, ChatGPT) sind sie vom Anbieter vorkonfiguriert.

Schritt 5: Token für Token, bis zum Stopp

Nach jedem Sampling-Schritt hängt das Modell das neue Token an den bisherigen Text an und wiederholt den gesamten Prozess — Attention, Wahrscheinlichkeitsverteilung, Sampling. Die Antwort entsteht also nicht als Ganzes, sondern Token für Token, linear von vorne nach hinten.

Das erklärt ein wichtiges Verhalten: Das Modell plant die Antwort nicht vor. Es weiß nicht im Voraus, wie lang sie wird oder wohin sie führt. Jede Wendung passiert im Moment, als Reaktion auf das bisher Geschriebene.

Die Generierung endet, wenn eines der folgenden Ereignisse eintritt:

Das Modell produziert ein spezielles Stopp-Token.
Die maximale Antwortlänge (z. B. 4096 Tokens) ist erreicht.
Eine explizit gesetzte Stopp-Sequenz erscheint.

Schritt 6: Warum dieselbe Frage verschiedene Antworten liefert

Weil Sampling randomisiert ist, sind zwei Antworten auf denselben Prompt fast nie identisch. Das ist in Kreativaufgaben ein Feature — in Faktenabfragen ein Problem.

Was Sie dagegen tun können:

Temperature senken. Bei Fakten und Analysen 0.0 bis 0.3 setzen, wenn das Tool es erlaubt.
Strukturierte Ausgabe verlangen. Eine JSON-Vorgabe reduziert den kreativen Spielraum.
Die Antwort mehrfach erzeugen lassen und vergleichen. Bei kritischen Aussagen ist Konsistenz über mehrere Läufe ein gutes Qualitätsmerkmal.

Was Sie aus dieser Lektion mitnehmen

Eine KI-Antwort ist kein Lookup, sondern eine Kette aus Tokenisierung, Attention, Wahrscheinlichkeitsverteilung und Sampling. Jede dieser Stufen hat Parameter, die Ergebnisse beeinflussen. Die wichtigsten im Alltag sind Temperature und Top-p.

Im nächsten Kapitel schauen wir uns an, warum dieselbe Mechanik, die das Modell so flexibel macht, auch die Ursache für Halluzinationen ist — und welche konkreten Techniken helfen, sie zu reduzieren.

Wissenscheck

Was beschreibt das Sampling bei der Antwortgenerierung?

Was ändert eine höhere Temperature-Einstellung?

Zurück