Lektion 6 von 6
Embeddings und RAG: wenn KI Ihr Wissen nutzt
Die Grenze, die RAG überwindet
Bis hierher haben Sie gesehen: Ein LLM "weiß" nur, was in seinen Trainingsdaten war — und zwar mit einem festen Stichtag. Ein Modell, das Ende 2024 trainiert wurde, kennt keine Änderungen, die seitdem in Ihrem Unternehmen entstanden sind. Es kennt Ihre Produktkatalog-Updates nicht, Ihre internen Prozessdokumente nicht, Ihre aktuellen Preise nicht.
Es gibt zwei Lösungswege:
- Fine-Tuning: Das Modell wird mit eigenen Daten nachtrainiert. Aufwendig, teuer, nicht flexibel, und für Fakten meist ungeeignet.
- Retrieval-Augmented Generation (RAG): Das Modell bleibt, wie es ist. Die relevanten Informationen werden bei jeder Anfrage aus einer externen Datenbank gezogen und in den Prompt geladen.
RAG ist heute die Standardarchitektur für KI-Assistenten mit unternehmensspezifischem Wissen — von FAQ-Bots bis zu komplexen Fachberatern.
Der Baustein darunter: Embeddings
Um zu verstehen, wie RAG funktioniert, müssen Sie zuerst Embeddings verstehen.
Ein Embedding ist eine Übersetzung von Text in einen Vektor — eine Liste aus typischerweise 768, 1536 oder 3072 Zahlen. Dieser Vektor ist keine Zufallszahl. Er ist so gelernt, dass semantisch ähnliche Texte ähnliche Vektoren ergeben.
Ein paar Beispiele, veranschaulicht:
- "Der Kunde möchte stornieren" und "Wie setze ich einen Auftrag zurück?" liegen im Vektorraum nahe beieinander, obwohl sie kein einziges Wort teilen.
- "Python-Code debuggen" und "Fehler im Python-Script finden" ebenso.
- "Kaffee bestellen" und "Flug buchen" liegen weit auseinander.
Embeddings werden nicht vom Antwort-Modell erzeugt, sondern von spezialisierten Embedding-Modellen, die auf dieselbe Art trainiert sind, aber einen anderen Zweck haben.
Eine Vektor-Datenbank: das Gedächtnis der RAG
Damit die Ähnlichkeits-Suche schnell ist, werden Embeddings in einer Vektor-Datenbank gespeichert. Bekannte Lösungen sind Qdrant, Pinecone, Weaviate und PostgreSQL mit der Erweiterung pgvector.
Der Prozess sieht so aus:
- Vorbereitung. Jedes Unternehmensdokument wird in sinnvolle Abschnitte zerlegt (Chunking): meist 200 bis 1000 Tokens pro Chunk.
- Embedding. Jeder Chunk wird durch ein Embedding-Modell geschickt. Das Ergebnis ist ein Vektor.
- Indexierung. Die Vektoren werden in der Vektor-Datenbank abgelegt, gemeinsam mit Metadaten (Quelle, Datum, Autor, Kategorie).
Diese Vorbereitung läuft einmal und wird bei Änderungen aktualisiert.
Der RAG-Flow in einer Anfrage
Wenn eine Nutzeranfrage kommt, passiert Folgendes:
- Embedding der Anfrage. Die Frage des Nutzers wird ebenfalls in einen Vektor übersetzt.
- Similarity Search. Die Vektor-Datenbank liefert die Top-k Chunks zurück, deren Vektoren der Anfrage am ähnlichsten sind — typischerweise drei bis zehn.
- Prompt-Montage. Das eigentliche LLM bekommt einen Prompt in etwa dieser Form: "Beantworte die folgende Frage nur auf Basis der angegebenen Quellen. [Frage des Nutzers]. Quellen: [Top-k Chunks]."
- Antwortgenerierung. Das LLM produziert die Antwort. Weil es die relevanten Informationen im Kontext hat, muss es nicht aus dem Training halluzinieren.
Die meisten Unternehmens-KI-Anwendungen, die über reine Chatfunktionen hinausgehen, basieren heute auf dieser Architektur.
Typische Anwendungsfälle
Interne Wissensdatenbank. Mitarbeitende fragen eine KI zu Unternehmensrichtlinien, Prozessen oder Produktinformationen. Die Antworten stammen aus den tatsächlichen Unterlagen, nicht aus dem generischen Training.
Kundenservice und FAQ. Ein Bot beantwortet Kundenanfragen auf Basis des aktuellen Support-Wissens. Neue FAQ-Einträge werden automatisch verfügbar, sobald sie in der Datenbank indexiert sind.
Vertriebsunterstützung. Ein Vertriebler fragt nach Argumenten gegen einen bestimmten Wettbewerber. Die Antwort zieht auf tatsächliche Battle Cards und Win-Loss-Analysen zurück.
Fachberatung. Eine technische Fachkraft fragt nach der Lösung eines Problems. Die KI zieht historische Tickets, Handbücher und interne Anleitungen als Quellen heran.
Die Stellen, an denen RAG schiefgeht
RAG ist mächtig, aber nicht trivial. Drei Schwachstellen treten in der Praxis häufig auf:
1. Schlechtes Chunking
Wenn Dokumente an ungünstigen Stellen zerschnitten werden, fehlt dem Retrieval der Kontext. Tabellen, Listen und mehrseitige Prozessbeschreibungen brauchen sorgfältige Chunking-Regeln.
2. Semantische Lücken
Die Similarity Search findet, was sprachlich ähnlich ist. Wenn Ihr Dokument "Rückabwicklung" heißt und der Nutzer nach "Storno" fragt, kann die Suche trotz modernem Embedding-Modell danebenliegen. Hybride Ansätze (Keyword-Suche plus Embedding-Suche) sind ein üblicher Ausweg.
3. Zu viele oder zu wenige Quellen
Liefert die Suche zu wenig, kann das Modell nicht antworten. Liefert sie zu viel oder irrelevantes Material, leidet die Qualität. Die richtige Zahl an Top-k-Chunks und ein zusätzliches Re-Ranking sind typische Tuning-Hebel.
Was RAG nicht kann
RAG ist keine Lizenz zum Abschalten der kritischen Prüfung. Wenn die Quelle falsch ist, wird auch die Antwort falsch. Wenn die Suche die falsche Quelle findet, trifft das Modell eine korrekte Antwort auf Basis des falschen Materials. Die Qualität einer RAG-Anwendung steht und fällt mit der Qualität der zugrundeliegenden Dokumente und der Kuratierung des Index.
Was Sie aus dieser Lektion mitnehmen
Embeddings machen Texte mathematisch vergleichbar. RAG kombiniert diese Vergleichbarkeit mit einem LLM, das die gefundenen Informationen zu einer Antwort formt. Das ist der heutige Standard für KI-Anwendungen mit unternehmensspezifischem Wissen. Fine-Tuning ist in den meisten Fällen nicht die richtige Antwort — RAG ist flexibler, günstiger und aktuell.
Kursabschluss
Nach diesen sechs Lektionen haben Sie ein belastbares Bild davon, wie moderne KI-Systeme funktionieren: vom Training über die Antwortgenerierung bis zur Architektur unternehmensspezifischer Anwendungen. Dieses technische Verständnis ist die Grundlage für alle weiteren Entscheidungen — ob es um den Kauf von Werkzeugen, die Planung eigener Projekte oder die Bewertung fremder Lösungen geht.
Die Abschlussprüfung wartet auf Sie.
Wissenscheck
Was ist ein Embedding?
Was ist der Kernvorteil von RAG gegenüber einem reinen LLM?