Lektion 2 von 5
Klassifikation und Extraktion mit KI
Zwei Werkzeuge, die fast immer greifen
Von allen KI-gestützten Datenqualitäts-Methoden haben zwei das breiteste Einsatzspektrum: Klassifikation und Extraktion. Beide bauen auf der Fähigkeit von Sprachmodellen auf, unstrukturierte Eingaben in strukturierte Ergebnisse zu überführen. Beide wirken sofort, ohne dass ein eigenes Modell trainiert werden muss. Beide sind in der Regel der Einstiegspunkt für Datenqualitäts-Initiativen im Mittelstand.
Klassifikation: Was ist das überhaupt?
Klassifikation beantwortet die Frage: In welche Kategorie gehört dieser Inhalt? Typische Anwendungen:
- Tickets in Service-Warteschlangen (Störung, Frage, Reklamation, Lob).
- E-Mails im Eingang (Bestellanfrage, Reklamation, Werbung, Bewerbung).
- Produkte in einem Katalog (Warengruppen, Unter-Warengruppen, Segmente).
- Leads nach Reifegrad (Informationsphase, Angebotsphase, Entscheidungsphase).
- Dokumente in einer Wissensdatenbank nach Thema.
Was früher Regelwerke und Schlüsselwort-Listen erforderte, gelingt mit einem Sprachmodell mit deutlich weniger Aufwand und höherer Trefferquote. Sie beschreiben die Kategorien im Prompt, geben drei bis fünf Beispiele pro Kategorie und lassen das Modell einordnen.
Ein einfaches, aber robustes Muster:
Du bist ein Klassifikator für Support-Tickets. Verfügbare Kategorien sind:
- „Störung" — technische Fehler an einem ausgelieferten Produkt
- „Bestellanfrage" — Kunde möchte Ware bestellen, anfragen oder Bestand prüfen
- „Reklamation" — formal angezeigte Beanstandung mit Erwartung auf Ersatz oder Gutschrift
- „Sonstiges" — alle Fälle, die nicht in 1-3 fallen
Klassifiziere den folgenden Ticket-Text in genau eine Kategorie. Antworte ausschließlich mit der Zahl und einer kurzen Begründung.
Gute und grenzwertige Beispiele im Prompt heben die Genauigkeit spürbar. Für wiederkehrende Klassifikationen lohnt sich ein Projekt-Prompt in Claude, der diese Regeln dauerhaft hinterlegt.
Extraktion: Felder aus Freitext ziehen
Extraktion beantwortet eine andere Frage: Welche konkreten, strukturierten Felder stecken in diesem Inhalt? Typische Anwendungen:
- Aus einer Bestell-Mail: Artikelnummer, Menge, Lieferadresse, Wunschdatum, Zahlungsart.
- Aus einem PDF-Vertrag: Vertragsnummer, Laufzeit, Kündigungsfrist, Preis, Vertragsparteien.
- Aus einem Lebenslauf: Berufliche Stationen, Abschlüsse, Fähigkeiten, Sprachkenntnisse.
- Aus einer handschriftlichen Notiz: Datum, Kundenname, besprochene Punkte, nächste Schritte.
- Aus einer Preisliste: Produkt, Einheit, Preis, gültig bis, Mengenstaffeln.
Der große Vorteil gegenüber klassischen Regex-basierten Ansätzen: Freitext ist Freitext. Das Modell versteht „bis Ende nächster Woche" als Datum, ohne dass Sie alle denkbaren Schreibweisen aufzählen müssen.
Bewährter Prompt-Ansatz:
Du extrahierst strukturierte Felder aus Kundenanfragen. Gib das Ergebnis als JSON mit folgenden Feldern zurück:
- kundenname (String)
- artikelnummern (Liste von Strings)
- gesamtmenge (Zahl)
- wunschtermin (ISO-Datum YYYY-MM-DD, leer wenn nicht genannt)
- bemerkung (String, maximal 200 Zeichen)
Wenn ein Feld nicht eindeutig genannt ist, setze es auf null. Füge keine erfundenen Werte ein.
Der explizite Hinweis „füge keine erfundenen Werte ein" und die Null-Regel sind die wichtigsten Anti-Halluzinations-Mechanismen in diesem Szenario.
Praxisregeln für zuverlässige Ergebnisse
Vier Regeln, die sich in produktiven Pipelines bewähren:
Regel 1 — Kategorien und Felder eindeutig definieren. Je klarer die Abgrenzung, desto stabiler das Ergebnis. Unscharfe Kategorien („interessante Anfragen") produzieren Schwankungen.
Regel 2 — Gute und grenzwertige Beispiele. Gute Beispiele zeigen, wie ein typischer Fall aussieht. Grenzwertige Beispiele zeigen, wie mit zweideutigen Fällen umgegangen werden soll. Die letzteren heben die Präzision oft mehr als weitere Hauptfälle.
Regel 3 — Klare Ausgabeformate. JSON mit festen Feldern, eindeutigen Datentypen und einer Null-Regel für fehlende Werte. Das macht die Ergebnisse maschinenlesbar und prüfbar.
Regel 4 — Unsicherheits-Signale einfordern. Bei unklaren Fällen soll das Modell das signalisieren — zum Beispiel mit einem zusätzlichen Feld „unsicher: true" oder „konfidenz: niedrig". So können Sie einen Rückkanal für menschliche Prüfung einrichten.
Qualitätssicherung
Drei Ebenen der Qualitätssicherung sind in der Praxis essenziell:
- Stichprobe. Eine feste Stichprobe pro Woche wird manuell nachgeprüft. Die Trefferquote wird dokumentiert. Bei einer Quote unter einem definierten Schwellenwert (oft 95 Prozent für Klassifikation, 90 Prozent für Extraktion) wird interveniert.
- Regel-basierte Plausibilität. Einfache Prüfregeln — zum Beispiel: „Menge ist positiv", „Datum liegt innerhalb des nächsten Jahres", „Artikelnummer existiert im Stammsystem". Fehlerhafte Treffer werden zurückgewiesen oder markiert.
- Rückkanal für unsichere Fälle. Ein klar definierter Workflow, in dem Fälle mit niedriger Konfidenz in eine Prüfqueue fließen und von Menschen entschieden werden.
Diese drei Ebenen unterscheiden ein experimentelles Skript von einem produktiv nutzbaren System.
Typische Einsatzgebiete im Mittelstand
- Kundenservice: Tickets kategorisieren und Felder extrahieren, damit das richtige Team mit der richtigen Information startet.
- Vertrieb: Anfragen in strukturierte Leads überführen — inklusive Mengen, Produkten und Wunschterminen.
- Einkauf: Angebote von Lieferanten in vergleichbare Datenstrukturen bringen, obwohl jedes Angebot anders formatiert ist.
- Recht: Verträge auf Kernfelder extrahieren (Laufzeit, Kündigungsfrist, wesentliche Pflichten), um sie vergleichbar zu machen.
- Controlling: Freitext-Kommentare aus Kundenbefragungen in thematische Cluster einordnen.
Was Sie aus dieser Lektion mitnehmen
Klassifikation und Extraktion sind die zwei zentralen KI-Werkzeuge der Datenqualitäts-Arbeit. Mit klaren Definitionen, guten Beispielen, sauberen Ausgabeformaten und einer disziplinierten Qualitätssicherung werden sie schnell produktiv. In der nächsten Lektion schauen wir uns an, wie sich Duplikate mit KI-Unterstützung sauber erkennen und zusammenführen lassen.
Wissenscheck
Was ist der zentrale Unterschied zwischen Klassifikation und Extraktion?
Welche Praxisregel erhöht die Zuverlässigkeit von KI-Klassifikation und -Extraktion nachweislich am stärksten?