Lektion 4 von 6
Das Context Window: das Kurzzeitgedächtnis der KI
Jede KI-Sitzung hat einen Arbeitsspeicher
Wenn Sie mit einem KI-Assistenten chatten, hat der Eindruck, das Modell "erinnert" sich an das Gesagte. Technisch stimmt das nur für die laufende Sitzung — und nur bis zu einer festen Grenze: dem Context Window.
Das Context Window ist die maximale Anzahl an Tokens, die das Modell in einer einzelnen Anfrage verarbeiten kann. Dazu zählt alles: die System-Anweisung, angehängte Dokumente, die Chat-Historie, Ihr aktueller Prompt und die generierte Antwort.
Wie groß ist das Context Window?
Die Grenzen sind in den letzten drei Jahren massiv gewachsen. Zum Stand 2026 bewegen sich die Frontier-Modelle in folgenden Größenordnungen:
- Claude Opus 4.6 und Sonnet 4.6: 200.000 Tokens Standard, Enterprise-Varianten bis 1 Million.
- GPT-5 und GPT-5 Thinking: zwischen 256.000 und 400.000 Tokens.
- Gemini 3 Pro und Flash: 1 bis 2 Millionen Tokens, je nach Variante.
Zum Einordnen: 200.000 Tokens entsprechen ungefähr 150.000 deutschen Wörtern oder dem Umfang eines mittleren Fachbuchs. Theoretisch können Sie also ein komplettes Handbuch in einen Prompt laden und Fragen dazu stellen.
Praktisch ist es fast nie eine gute Idee.
Warum "so viel Kontext wie möglich" selten die Lösung ist
Lange Kontexte haben drei Probleme:
1. Rechenkosten
Die Anzahl der Rechenoperationen wächst mit der Länge des Kontextes überproportional. Eine Anfrage mit 200.000 Tokens Eingabe kostet nicht zehnmal so viel wie eine mit 20.000 Tokens — sondern eher das Zwanzig- bis Fünfzigfache. Das spüren Sie in API-Rechnungen und in der Latenz.
2. Aufmerksamkeitsverlust
Das Phänomen Lost in the Middle ist gut dokumentiert: Modelle gewichten Informationen am Anfang und am Ende eines langen Kontexts stärker als in der Mitte. Wer eine wichtige Regel irgendwo auf Seite 40 versteckt, riskiert, dass das Modell sie beim Antworten übersieht, obwohl sie technisch im Context Window steht.
3. Verwässerung
Je mehr Material Sie bereitstellen, desto eher findet das Modell auch irrelevante Teile und bezieht sie in die Antwort ein. Ein gezielt ausgewählter Ausschnitt liefert oft bessere Ergebnisse als ein riesiger, ungefilterter Textblock.
Was passiert, wenn das Context Window voll ist?
Sobald die Grenze erreicht ist, stehen zwei Wege offen:
- Anbieter-Seite: Moderne Chat-Oberflächen kürzen die Chat-Historie automatisch — in der Regel werden ältere Nachrichten entfernt, neue bleiben. Das bedeutet: Das Modell "vergisst" den Anfang einer langen Sitzung.
- Eigene API-Nutzung: Sie müssen selbst entscheiden, was im Prompt bleibt und was nicht. Techniken wie Summarization (eine knappe Zusammenfassung älterer Turns) oder Retrieval (nur relevante Abschnitte einspielen) sind Standard.
Ein wichtiges Missverständnis: Inhalte, die aus dem Context Window fallen, sind für das Modell in dieser Sitzung weg. Das Modell wird sie nicht "aus der Erinnerung" rekonstruieren. Wer lange Sitzungen führt, sollte zentrale Informationen deshalb am Anfang jeder neuen Runde noch einmal einspielen.
Praktische Faustregeln für den Alltag
- Unter 10.000 Tokens: Einfach in den Prompt laden. Keine besondere Vorsicht nötig.
- 10.000 bis 50.000 Tokens: Struktur wichtig. Relevante Passagen nach vorne, klare Abschnittsüberschriften, explizite Anweisung, worauf das Modell sich konzentrieren soll.
- 50.000 bis 200.000 Tokens: Nur wenn nötig. Wichtige Anweisungen an Anfang und Ende wiederholen. Rechnen Sie mit deutlich höheren Kosten und längerer Antwortzeit.
- Über 200.000 Tokens: In den meisten Fällen ist Retrieval (RAG) die bessere Lösung.
Wann "Speicher über Sessions hinweg" wichtig wird
Context Window ist nicht das Gleiche wie persistenter Speicher. Wenn Sie heute mit einem Modell über ein Projekt sprechen und morgen eine neue Sitzung starten, weiß das Modell nichts mehr von gestern — es sei denn, Sie laden die relevanten Inhalte erneut.
Anbieter arbeiten an Funktionen wie Projects, Memory oder Custom GPTs, die Kontext über Sessions hinweg halten. Technisch funktioniert das, indem die Inhalte bei jedem neuen Gespräch automatisch erneut in das Context Window geladen werden. Es gibt keine echte "Erinnerung" im menschlichen Sinne — nur eine komfortable Oberfläche, die Wiedereinspielen automatisiert.
Was Sie aus dieser Lektion mitnehmen
Das Context Window ist die wichtigste technische Grenze im Alltag. Es ist groß, aber nicht unbegrenzt. Besser als "viel hineinstopfen" ist fast immer: gezielt auswählen, Struktur geben, Wichtiges an Anfang und Ende platzieren. Persistenz über Sessions entsteht nicht durch Context, sondern durch systematisches Wiedereinspielen relevanter Inhalte.
Im nächsten Kapitel schauen wir uns an, warum für manche Aufgaben ein sogenanntes Reasoning-Modell besser geeignet ist als ein Standard-Modell — und was dieser Unterschied konkret bedeutet.
Wissenscheck
Was ist das Context Window eines LLM?
Was bedeutet 'Lost in the Middle' im Zusammenhang mit langem Kontext?