Lektion 3 von 5
Deduplikation und Matching
Das Dubletten-Problem ernst nehmen
Dubletten sind in fast jedem mittelständischen Unternehmen präsent — im CRM, im ERP, im Ticketsystem, in Newsletter-Listen. Sie entstehen, wenn Daten in Hektik angelegt werden, wenn zwei Systeme synchronisieren, ohne sauber zu matchen, oder wenn Kunden ihre Namen, Rechtsformen oder Adressen ändern. In der Wirkung sind sie teuer: doppelte Ansprache, falsche Umsatzzahlen, Rahmenverträge, die nicht genutzt werden, weil sie dem „falschen" Eintrag anhängen.
Diese Lektion zeigt, wie KI bei Erkennung und Zusammenführung hilft — und wo die Grenzen sind.
Drei Stufen des Matchings
Für die Duplikaterkennung bewährt sich eine dreistufige Architektur. Die Stufen kombinieren Geschwindigkeit, Präzision und Kontrollierbarkeit.
Stufe 1 — Regel-basiertes Vorfiltern. Gleiche Steuernummer, gleiche IBAN, exakt gleiche Bezeichnung: klare Treffer, die keine weitere Prüfung brauchen. Diese Stufe ist schnell und reduziert die Menge der zu vergleichenden Datensätze massiv.
Stufe 2 — Fuzzy Matching für Schreibweisen. Algorithmen wie Levenshtein, Jaro-Winkler oder Double Metaphone erkennen oberflächliche Unterschiede: „Bauer GmbH" vs. „Bauer Gmbh", „Müller" vs. „Mueller", Zahlendreher, Tippfehler. Diese Werkzeuge sind etabliert und in vielen Datenbanken integriert.
Stufe 3 — Embedding-basierte Ähnlichkeit. Moderne Sprachmodelle liefern Embeddings — Vektoren, die die inhaltliche Bedeutung eines Textes repräsentieren. Zwei Einträge, die inhaltlich Dasselbe meinen („Müller Elektro GmbH" und „Elektrofachbetrieb Müller"), liegen im Vektorraum nah beieinander, auch wenn die Zeichenketten auseinandergehen. Diese Stufe hebt die Trefferqualität deutlich — insbesondere bei Firmenbezeichnungen, Produktnamen und Adressen mit freier Schreibweise.
In der Praxis arbeitet ein gutes Dedup-System mit allen drei Stufen hintereinander: Stufe 1 fängt die klaren Fälle, Stufe 2 die üblichen Schreibvarianten, Stufe 3 die inhaltlichen Äquivalenzen.
Matching-Kandidaten und Score
Jedes Matching-Werkzeug liefert pro Vergleich einen Ähnlichkeits-Score. Üblich ist ein dreiteiliger Umgang damit:
- Hoher Score (z. B. über 0,9): automatischer Match, direkte Zusammenführung oder Markierung als Duplikat.
- Mittlerer Score (z. B. 0,7 bis 0,9): in eine Prüfqueue, menschliche Kontrolle.
- Niedriger Score (unter 0,7): kein Match.
Die Schwellen variieren je nach Kontext und Datenbestand. Es lohnt sich, die Quoten (automatische vs. geprüfte vs. verworfene Matches) zu messen und die Schwellen anzupassen.
Golden Record: die Zusammenführung
Die Erkennung ist der halbe Weg. Der zweite Teil — die Zusammenführung — ist oft der kritischere. Aus mehreren Einträgen muss ein konsolidierter Datensatz werden: der Golden Record.
Eine bewährte Regelstruktur:
- Primärquelle definieren. Welches System ist für welches Feld führend? Adressen vielleicht aus dem ERP, Ansprechpartner aus dem CRM, Bonitätsinformationen aus der Buchhaltung.
- Recency-Regel für volatile Felder. Bei Telefonnummern, Mail-Adressen oder Ansprechpartnern gewinnt oft der aktuellere Eintrag.
- Vollständigkeits-Regel. Nicht-leere Felder schlagen leere Felder.
- Historien-Merge. Bestellungen, Angebote, Rechnungen, Tickets werden nicht verworfen, sondern dem konsolidierten Eintrag angehängt. Die Historie darf nicht verlorengehen.
- Rückverfolgbarkeit. Ein Audit-Log, das dokumentiert, welche Datensätze zusammengeführt wurden. Bei Rückfragen oder Fehlern lässt sich das rückabwickeln.
Warum der menschliche Kontrollschritt zählt
Die automatische Zusammenführung ist in klar sicheren Fällen unproblematisch. In den mittleren Fällen (Score 0,7–0,9) und bei geschäftskritischen Stammdaten (Großkunden, Rahmenvertragspartner, regulierte Entitäten) sollte eine menschliche Prüfung zwischengeschaltet sein. Drei Gründe:
- Folgewirkungen. Eine fehlerhafte Zusammenführung kann Verträge, Rabattstaffeln oder Compliance-Stati betreffen. Eine falsche Entscheidung ist teurer als ein zusätzlicher Prüfschritt.
- Lernen des Systems. Jede menschliche Entscheidung ist ein Trainingspunkt. Ein gutes Dedup-System erfasst, wie Menschen entschieden haben, und passt die Schwellen an.
- Transparenz gegenüber Fachbereichen. Wenn Sachbearbeiter nachvollziehen können, wie Matches entstehen, steigt die Akzeptanz des Systems.
Der Aufwand ist in der Regel kleiner, als er wirkt. Bei einem realistisch aufgesetzten System entfallen 80 bis 90 Prozent der Matches auf die automatische Stufe; nur der Rest braucht menschliche Entscheidung.
Matching über Systeme hinweg
Eine besondere Disziplin ist das Matching über Systemgrenzen hinweg — zum Beispiel Kundendaten aus CRM und ERP, Lieferantendaten aus Einkaufs- und Buchhaltungssystem, Produktdaten aus PIM und Shop. Dieselbe Logik greift, mit drei zusätzlichen Aspekten:
- Schlüssel-Harmonisierung. Welches Feld dient als Brücke zwischen Systemen? Oft eine interne ID, manchmal eine externe Referenz (Handelsregisternummer, USt-IdNr.).
- Richtung der Wahrheit. Welche Änderung schreibt in welches System zurück? Einseitige Wahrheit ist einfacher als bidirektionaler Abgleich.
- Rhythmus. Einmaliger Abgleich reicht selten. Ein laufender Delta-Prozess, der täglich oder wöchentlich neue Datensätze prüft, hält die Systeme konsistent.
Was Sie aus dieser Lektion mitnehmen
Deduplikation ist ein dreistufiger Prozess — regel-basiert, fuzzy, embedding-basiert — mit sauber definierten Score-Schwellen. Die eigentliche Zusammenführung zu Golden Records verlangt klare Regeln zur Primärquelle, eine Historien-Sicherung und für geschäftskritische Fälle einen menschlichen Kontrollschritt. In der nächsten Lektion geht es um die andere Seite des Problems: das gezielte Anreichern fehlender Felder.
Wissenscheck
Was unterscheidet klassisches Fuzzy Matching von einem Embedding-basierten Matching?
Warum sollte ein Golden-Record-Prozess einen menschlichen Kontrollschritt enthalten?