KI-Strategie im Mittelstand

Lektion 5 von 6

KPIs und Erfolgsmessung — wann ist ein KI-Projekt erfolgreich?

Ohne Messung kein Projektabschluss

KI-Projekte, die ohne klare Erfolgsmessung starten, enden in diffusen Gefühlen: "Läuft ganz gut" oder "Ist irgendwie noch nicht rund". Das hilft niemandem. Eine saubere KPI-Struktur klärt, was Erfolg ist, noch bevor der Pilot startet — und schafft damit die Voraussetzung für eine ehrliche Entscheidung am Ende.

Die vier KPI-Ebenen

Nicht alle Kennzahlen sind gleich wichtig. Ordnen Sie sie auf vier Ebenen:

Ebene 1: Nutzung

Wird die Lösung überhaupt eingesetzt? Wie viele Anwenderinnen und Anwender? Wie viele Vorgänge pro Tag?

Nutzung ist notwendig, aber nicht hinreichend. Ein Tool kann genutzt werden und trotzdem keinen Nutzen stiften — oder selten eingesetzt werden und bei jedem Einsatz viel bringen.

Ebene 2: Qualität

Wie gut sind die Ergebnisse? Beispiele:

Trefferquote bei der Klassifikation: z. B. "88 Prozent der eingehenden E-Mails werden korrekt zugeordnet"
Korrektheit bei Extraktion: z. B. "Die Rechnungsnummer wird in 95 Prozent der Fälle richtig erkannt"
Relevanz bei RAG-Antworten: z. B. "7 von 10 Antworten werden von Fachanwendern als sachlich korrekt und vollständig bewertet"

Qualitäts-KPIs brauchen fast immer eine stichprobenbasierte manuelle Prüfung — automatische Metriken allein reichen selten.

Ebene 3: Wirkung im Prozess

Was verändert sich im Alltag?

Zeit pro Vorgang: vorher 8 Minuten, nachher 2,5 Minuten
Durchlaufzeit einer Anfrage: vorher 48 Stunden, nachher 6 Stunden
Fehlerrate: vorher 12 Prozent, nachher 3 Prozent
Zufriedenheit von Kunden oder Mitarbeitenden auf einer einfachen Skala

Diese Ebene ist die zentrale Entscheidungsgrundlage. Sie zeigt, ob der Einsatz echten Nutzen bringt.

Ebene 4: Wirtschaftliche Wirkung

Was bringt es in Euro?

Zeitersparnis × interner Stundensatz × Anzahl Vorgänge
Eingesparte Kosten durch reduzierte Fehlerquote
Umsatzwachstum durch schnellere Reaktion oder bessere Angebote

Wirtschaftliche KPIs sind im Piloten oft noch mit Vorbehalten verbunden, weil Skaleneffekte fehlen. In der Skalierung werden sie zur Hauptmesslatte.

Die Baseline: der unverzichtbare Startwert

Eine der häufigsten Lücken in KI-Piloten ist die fehlende Baseline. Ohne Vergleichswert ist keine Wirkung objektiv nachweisbar.

Wie Sie eine Baseline erheben:

Stoppuhr-Methode. Eine Woche lang stoppen Sie systematisch, wie lange der betreffende Prozess heute dauert. Zehn bis zwanzig Beobachtungen reichen in den meisten Fällen.

Stichproben-Audit. 50 bis 100 historische Vorgänge werden manuell auf Fehler oder Qualität geprüft. Das ergibt die heutige Fehlerquote.

Kurzbefragung. Eine einfache Mitarbeiterumfrage zur Zufriedenheit mit dem aktuellen Prozess — gleiche Fragen später erneut stellen, um die Entwicklung zu erfassen.

Die Baseline muss nicht wissenschaftlich genau sein. Sie muss konsistent sein — also mit denselben Methoden später erneut erhoben werden können.

Häufige Fehler bei der Erfolgsmessung

Fehler 1: Nur Nutzungsstatistiken auswerten. "Die KI wurde 1.200 Mal verwendet" sagt nichts über Nutzen.

Fehler 2: Sich auf Benchmarks verlassen. Öffentliche Benchmarks zeigen, was ein Modell theoretisch leistet. Sie sagen wenig über die Leistung in Ihrem konkreten Kontext.

Fehler 3: Qualität nicht prüfen. Eine KI, die schnelle, aber sachlich mangelhafte Ergebnisse liefert, richtet Schaden an. Qualitäts-KPIs sind nicht optional.

Fehler 4: Nur harte KPIs messen, weiche ignorieren. Mitarbeiterzufriedenheit, Akzeptanz, empfundene Entlastung sind echte Erfolgsfaktoren. Sie entscheiden mit, ob eine Lösung dauerhaft genutzt wird.

Ein einfaches KPI-Set für den ersten Piloten

Für die meisten Use-Cases sind fünf Kennzahlen ausreichend:

Nutzung. Anzahl Vorgänge über die KI-Lösung pro Woche.
Trefferquote oder Qualitätsrate. Aus manueller Stichprobenprüfung.
Zeit pro Vorgang. Vergleich zur Baseline.
Fehlerrate. Vergleich zur Baseline.
Zufriedenheitswert. Kurze Befragung der Anwender auf einer 1-bis-5-Skala.

Mehr ist selten besser. Wer zehn KPIs definiert, misst meist drei davon und streitet über sieben.

Was Sie aus dieser Lektion mitnehmen

Erfolg ist, was Sie vor dem Start definiert haben. Die wirksamsten KPIs zeigen, was sich im Prozess verändert — nicht, wie oft ein Tool geklickt wurde. Eine Baseline ist Pflicht. Im nächsten Kapitel geht es um die typischen Fallstricke, die sich mit Erfahrung vermeiden lassen.

Wissenscheck

Welche Art von KPI ist für einen KI-Piloten am aussagekräftigsten?

Warum ist die Baseline-Messung vor dem Pilotstart entscheidend?

Zurück