Lektion 4 von 5
Anreicherung und externe Quellen
Anreicherung: der Dreh- und Angelpunkt der Nutzbarkeit
Nach Bereinigung und Dedup bleiben oft Datensätze, die „sauber, aber dünn" sind. Ein Lead mit vollständigem Namen, aber ohne Branche. Ein Kunde mit korrekter Anschrift, aber ohne Ansprechpartner-Funktion. Ein Produkt mit Bezeichnung, aber ohne Warengruppe. Ohne diese Zusatzfelder bleiben Prozesse und Segmentierungen holprig.
KI unterstützt die Anreicherung auf zwei Arten: Felder aus vorhandenen internen Daten ableiten und Felder aus externen Quellen ergänzen. Beide Ansätze verdienen eine saubere Systematik, damit die Qualität steigt — und nicht sinkt.
Interne Anreicherung
Oft sind Informationen im Unternehmen vorhanden, nur nicht an der richtigen Stelle. Typische Ansätze:
- Aus Freitext ableiten. Die E-Mail-Historie eines Kontakts verrät seine Funktion („als CFO halte ich es für sinnvoll …"). Der Verlauf von Bestellungen deutet auf eine Branche hin. Die Reklamations-Historie zeigt, wie sensibel der Kunde ist.
- Aus verwandten Datensätzen übernehmen. Kennen Sie einen Ansprechpartner, können Sie bestimmte Attribute des Unternehmens auf Ansprechpartner derselben Firma übertragen — mit Vorsicht, aber als Kandidat.
- Aus Mustern lernen. Wer in der Vergangenheit in der Warengruppe X gekauft hat, wird mit hoher Wahrscheinlichkeit auch für Y erreichbar sein. Solche Muster liefern Kandidaten, nicht Wahrheiten.
Das Werkzeug der Wahl ist ein Sprachmodell mit klar formuliertem Prompt, einer eindeutigen Feldliste und einer Null- beziehungsweise Konfidenz-Regel: Wenn das Modell nicht sicher ist, soll es das sagen, nicht erfinden.
Externe Anreicherung
Deutlich häufiger geht es darum, fehlende Felder aus externen Quellen zu ergänzen. Typische Quellen im Mittelstand:
- Handelsregister- und Unternehmensdaten. Rechtsform, Geschäftsführung, Handelsregister-Nummer, Sitz, Gründungsjahr. Verfügbar über Register-Auszüge und kommerzielle Anbieter.
- Firmen-Website und Presse. Branche, Größenklasse, Produktportfolio, aktuelle Entwicklungen.
- Berufliche Netzwerke. Funktionen von Ansprechpartnern, Wechsel, Verantwortungsbereiche. Hier ist besonderer Datenschutz-Fokus angezeigt.
- Branchenspezifische Quellen. Im Großhandel zum Beispiel Artikel-Stammdaten-Provider, Herstellerdatenbanken, SHK- oder Elektro-Klassifikationen.
KI-gestützt bedeutet in vielen Fällen: Ein Sprachmodell unterstützt die Aufbereitung, Interpretation oder Konsolidierung der externen Informationen. Reine Webrecherche ohne qualifizierte Quelle bleibt heikel — wer fehlende Felder „aus dem Netz" ergänzt, bekommt oft plausible, aber unzuverlässige Treffer.
Provenienz: woher, wann, wie verlässlich
Eine Regel, die in jeder Anreicherungs-Pipeline stehen sollte: Jedes angereicherte Feld trägt Metadaten.
- Quelle: das System oder der Dienst, aus dem der Wert stammt.
- Zeitpunkt: wann der Wert abgerufen oder abgeleitet wurde.
- Konfidenz: wie sicher ist der Wert — entweder numerisch (0–1) oder kategorial (hoch, mittel, niedrig).
- Abgleich mit bestehendem Wert: War vorher etwas eingetragen? Wurde es überschrieben, beibehalten, markiert?
Ohne diese Metadaten werden angereicherte Daten über Monate nicht mehr unterscheidbar von handerfassten — und damit auch nicht mehr prüfbar. Mit Metadaten können Sie zurückverfolgen, die Qualität messen und gezielt Korrekturschleifen fahren.
Plausibilitätsprüfung
Automatische Anreicherung ohne Plausibilitätsprüfung ist ein Risiko. Bewährt haben sich drei Prüfebenen:
- Existenz- und Formatprüfung. Ist die USt-IdNr. gültig formatiert, existiert das Handelsregister-Aktenzeichen, ist die Branche im Wertebereich der definierten Klassifikation?
- Konsistenzprüfung. Passt die neu ergänzte Branche zum Produktportfolio, passt die neue Größenklasse zu den bisherigen Bestellvolumina?
- Schwellenwerte pro Feld. Manche Felder (Ansprechpartner-Funktion) dürfen nur mit hoher Konfidenz geändert werden, andere (vermutete Branche) auch mit mittlerer.
Bei Auffälligkeiten geht der Datensatz in eine Prüfqueue oder bleibt mit Markierung („angereichert, unsicher") in der Datenbank — aber nicht ohne Transparenz.
Datenschutz-Dimension
Personenbezogene Datenanreicherung aus externen Quellen ist datenschutzrechtlich anspruchsvoll. Die DSGVO bleibt vollständig gültig. Vier Leitplanken:
- Rechtsgrundlage prüfen. Für die meisten B2B-Szenarien ist das berechtigte Interesse (Art. 6 Abs. 1 lit. f DSGVO) tragbar, verlangt aber eine ausdokumentierte Abwägung. Für Direktwerbung gelten Sonderregeln, für besondere Kategorien von Daten sind die Hürden deutlich höher.
- Zweckbindung. Daten werden für einen definierten Zweck angereichert. Eine spätere Umnutzung ist rechtlich heikel.
- Transparenz. Die Information, dass Daten angereichert werden, gehört in Datenschutzhinweise. Betroffenenrechte (Auskunft, Berichtigung, Löschung) müssen bedient werden können.
- Herkunftsbewertung der externen Quelle. Wer externe Daten bezieht, sollte prüfen können, ob die Quelle ihrerseits eine rechtmäßige Grundlage für die Verarbeitung hat.
Operativer Rhythmus
Anreicherung ist kein einmaliger Prozess. Drei Stufen:
- Bulk-Anreicherung. Einmalig für den Bestand, bei Projektstart oder bei einer Systemumstellung.
- Laufende Anreicherung. Jeder neu angelegte Datensatz durchläuft die Anreicherungs-Pipeline.
- Refresh-Zyklus. Kritische Felder (Ansprechpartner, Bonität) werden in festen Zyklen (drei bis zwölf Monate) überprüft und ggf. aktualisiert.
Was Sie aus dieser Lektion mitnehmen
Anreicherung nutzt interne und externe Quellen, um Lücken zu schließen. Der Qualitätssprung kommt nicht aus der schieren Datenmenge, sondern aus sauberer Provenienz, Plausibilitätsprüfung und einer klaren Datenschutz-Grundlage. In der letzten Lektion fügen wir die Einzelbausteine zu einem belastbaren Gesamtprozess zusammen — mit Governance, Rollen und einem kleinen Starterkit für Ihr Unternehmen.
Wissenscheck
Welche Regel ist bei der Anreicherung von Stammdaten aus externen Quellen besonders wichtig?
Welche datenschutzrechtliche Grundannahme gilt für die KI-gestützte Anreicherung personenbezogener Daten?