Typische Datenqualitätsprobleme im Mittelstand

Warum Datenqualität ein Dauerthema ist

„Unsere Daten sind Müll" ist eine typische zugespitzte Ausgangslage. Meist beschreibt sie nicht den gesamten Bestand, sondern konkrete Lücken in Pflege, Zuständigkeit oder Struktur. Jeder neue Auftrag, jede Adressänderung und jeder Wechsel eines Ansprechpartners verändert den Datenbestand. Eine einmalige Bereinigung schafft deshalb nur einen Stichtag.

Dieser Kurs hilft Ihnen, Qualität nicht als Projekt, sondern als Prozess aufzusetzen. Diese Lektion beginnt dort, wo jedes gute Vorhaben beginnt: mit einer ehrlichen Bestandsaufnahme der typischen Probleme.

Fünf Problemklassen

Die Vielfalt tatsächlicher Probleme ist groß, aber sie fällt in fünf Kategorien, die unterschiedliche Lösungsansätze verlangen.

Dubletten. Derselbe Datensatz existiert mehrfach — mit kleinen Schreibweise-Unterschieden, in verschiedenen Systemen oder mit variierender Tiefe. „Bauer GmbH", „Bauer Gmbh", „BAUER Gmbh" und „Bauer Gesellschaft mit beschränkter Haftung" sind vier Einträge für ein Unternehmen. Im Vertrieb führt das zu doppelten Ansprachen; im Controlling zu falschen Umsätzen.

Lücken. Felder sind leer, obwohl sie für Prozesse nötig wären: die Branche bei Interessenten, der Ansprechpartner für Rechnungen, die USt-IdNr. für Lieferungen innerhalb der EU. Lücken entstehen oft an den Übergängen zwischen Systemen oder weil das Anlegen unter Zeitdruck erfolgt.

Inkonsistenzen. Zwei Systeme enthalten widersprüchliche Angaben zum gleichen Sachverhalt. Im CRM steht eine Adresse, im ERP eine andere; im Ticketsystem ein anderer Ansprechpartner als im Angebotssystem. Für Sachbearbeiter bedeutet das dauerhaftes Rückfragen, für Kunden fehlt die Gewissheit, dass man beim Anbieter auf dem gleichen Stand ist.

Veralterung. Daten, die bei Anlage korrekt waren, aber nicht gepflegt wurden. Klassiker: Telefonnummern früherer Ansprechpartner, Preisstaffeln, die seit drei Jahren nicht aktualisiert sind, Vertragsnummern abgelaufener Rahmenvereinbarungen.

Strukturverlust. Informationen existieren, stehen aber nicht in Systemen, sondern in E-Mails, PDFs, Gesprächsnotizen oder Handzetteln. Technisch vorhanden, operativ nicht nutzbar. Besonders relevant in einkaufsintensiven Branchen oder bei serviceorientierten Dienstleistern, die viel auf Zuruf arbeiten.

Was das im Alltag kostet

Die Kosten schlechter Daten werden selten sauber gemessen, sind aber real. Einige typische Muster:

Vertrieb. Doppelbetreuung, Kontaktchaos, Angebote an Ansprechpartner, die seit Monaten nicht mehr im Unternehmen sind. Ein realistischer Anteil vertrieblicher Arbeitszeit wird für Datenklärung statt Verkauf aufgewendet.
Marketing. Kampagnen an nicht existierende E-Mail-Adressen, Dubletten in Nurturing-Strecken, falsch zugeordnete Branchen. Messbar in Reichweitenverlust und sinkender Conversion.
Einkauf und Beschaffung. Rahmenverträge bleiben ungenutzt, weil sie nicht auffindbar sind. Lieferanten werden mehrfach angelegt, Staffelpreise nicht realisiert.
Controlling. Auswertungen, die auf zwei Wahrheiten beruhen — je nach System. Diskussionen über „richtige" Zahlen, die eigentlich Diskussionen über Datenquellen sind.
Service. Ticket-Historien, die nicht verknüpft sind; derselbe Kunde startet drei Mal mit „erzählen Sie mir bitte den Sachverhalt".

Typische Ursachen

Die gute Nachricht: Die Ursachen sind meist strukturell und adressierbar.

Systembrüche. Daten leben in verschiedenen Werkzeugen, die nicht sauber verbunden sind. Jeder Übergang ist ein Fehlerpunkt.
Unklare Verantwortlichkeit. Niemand fühlt sich für die Qualität eines bestimmten Feldes explizit zuständig.
Fehlende Qualitätsregeln. Welches Feld ist Pflicht, welches optional? Wie sieht „richtig" aus? Ohne solche Regeln entsteht Chaos.
Zeitdruck. Unter Stress wird mit halber Tiefe angelegt. Einmal mit halber Tiefe, immer mit halber Tiefe.
Keine Rückmeldung an die Anlegenden. Wer eine Adresse fehlerhaft anlegt, erfährt selten davon. Ohne Feedback keine Lernkurve.

Was KI an diesen Problemen ändert

KI löst die Ursachen nicht automatisch, aber sie nimmt die Symptome deutlich effektiver in Angriff als bisherige Werkzeuge:

Dubletten erkennen, auch bei abweichenden Schreibweisen und Formulierungen. Moderne Embedding-basierte Ähnlichkeitsprüfungen sind den klassischen Fuzzy-Matches deutlich überlegen.
Felder aus Freitext extrahieren. E-Mails, PDFs, Verträge, handschriftliche Notizen — Sprachmodelle extrahieren strukturierte Felder mit einer Qualität, die Regelwerke nie erreichen.
Klassifizieren und priorisieren. Tickets, Leads, Dokumente lassen sich konsistent in definierte Kategorien einordnen.
Anreichern und validieren. Fehlende Felder ergänzen anhand öffentlicher oder interner Quellen, Widersprüche markieren, plausible Kandidaten vorschlagen.
Pattern-basiertes Monitoring. Abweichungen vom üblichen Muster erkennen — etwa ein Kunde, der plötzlich anders kategorisiert ist, oder ein Preis, der systematisch aus der Reihe fällt.

Der Kurs nimmt sich diese Hebel in den folgenden Lektionen der Reihe nach vor.

Was Sie aus dieser Lektion mitnehmen

Datenqualität ist ein Dauerprozess, nicht ein Projekt. Die fünf Hauptproblemklassen sind Dubletten, Lücken, Inkonsistenzen, Veralterung und Strukturverlust. Ursachen sind meist strukturell — Systembrüche, unklare Verantwortung, fehlende Regeln, Zeitdruck, fehlendes Feedback. KI wirkt stark auf die Symptome und macht die Bewältigung überhaupt erst praktikabel. In der nächsten Lektion beginnen wir mit Klassifikation und Extraktion — die beiden Werkzeuge mit dem breitesten Einsatzspektrum.

Wissenscheck

Welche fünf Kategorien fassen die häufigsten Datenqualitätsprobleme im Mittelstand treffend zusammen?

Warum reicht es nicht, ein Datenqualitätsproblem einmalig zu lösen?