ITSM Confidence Scoring: Warum Konfidenz-Schwellen die KI unter Kontrolle halten

16 April, 2026
ITSM Confidence Scoring

Viele IT-Service-Fachleute fürchten einen Kontrollverlust bei der KI-Einführung. Die Sorge besteht darin, dass ein automatisiertes System unbemerkt falsche operative Entscheidungen trifft. Die Antwort darauf ist nicht, auf Automatisierung zu verzichten, sondern sie schrittweise und kontrolliert einzuführen.

Das Instrument, das dieses Gleichgewicht ermöglicht, ist das ITSM Confidence Scoring: ein Mechanismus, der misst, wie „sicher“ die KI in Bezug auf ihre Vorschläge ist. Auf Grundlage dieses Maßes wird entschieden, ob sie eigenständig vorgeht oder die Bestätigung eines menschlichen Operators einholt.

Was ist Confidence Scoring?

Jedes Mal, wenn ein KI-Modell einen Output erzeugt – eine einem Ticket zugewiesene Kategorie, eine Weiterleitung an ein Team, den Vorschlag eines Knowledge-Base-Artikels – kann dieser Output von einem numerischen Wert begleitet werden, der den geschätzten Zuverlässigkeitsgrad ausdrückt. Dieser Wert ist der Confidence Score.

Ein hoher Score bedeutet, dass das Modell seinen eigenen Vorschlag für sehr präzise und zuverlässig hält, während ein niedriger Score Unsicherheit signalisiert. ITSM Confidence Scoring ermöglicht es auch, Schwellenwerte festzulegen und diese mit konkreten Aktionen zu verknüpfen: Bei Scores oberhalb eines bestimmten Schwellenwerts handelt die KI eigenständig, unterhalb davon wird der Output zur Überprüfung an einen Operator weitergeleitet.

Das auf dem Zuverlässigkeits-Schwellenwert basierende Routing ist das am weitesten verbreitete KI-Governance-Modell in Enterprise-Umgebungen: Outputs oberhalb des Schwellenwerts werden automatisch ausgeführt, Outputs unterhalb des Schwellenwerts werden zur menschlichen Überprüfung weitergeleitet. Das Human-in-the-Loop-Pattern – der Ansatz, der eine Person im automatisierten Entscheidungsprozess beibehält – ist das häufigste bei KI-Implementierungen: Outputs oberhalb des Schwellenwerts werden selbstständig ausgeführt, Outputs unterhalb des Schwellenwerts werden zur menschlichen Überprüfung weitergeleitet.

Menschliche Aufsicht hat Priorität

Dass das auf Zuverlässigkeits-Schwellenwerten basierende Modell einem echten Bedürfnis entspricht, bestätigen die von EasyVista bei seinem Customer Advisory Board erhobenen Daten. Mehr als  80 % der Befragten geben an, ein moderates bis umfassendes Maß an menschlicher Aufsicht über KI-Entscheidungen zu bevorzugen (80 % in Nordamerika, 87 % im EMEA-Raum), während nur eine Minderheit bereit ist, der KI Entscheidungen mit geringer oder keiner menschlichen Aufsicht zu überlassen.

Dieselbe Studie zeigt, dass die Bereitschaft zur KI-Einführung bei unterstützenden Funktionen wie Ticket-Zusammenfassungen, Fallanalysen oder KI-generierten Antworten höher ist, während autonomere Anwendungsfälle wie die automatische Qualitätsklassifizierung der CMDB oder intelligentes Eskalationsmanagement deutlich niedrigere Werte erhalten.

Von der Vorsicht zur Pflicht: Was der EU AI Act vorsieht

Diese Vorsicht wird zu einer regulatorischen Anforderung. Artikel 14 des EU AI Acts schreibt vor, dass Hochrisiko-KI-Systeme so konzipiert sein müssen, dass eine wirksame menschliche Aufsicht möglich ist. ITSM Confidence Scoring ist genau der technische Mechanismus, der dieses Prinzip in operative Praxis umsetzt: Anstatt zu verlangen, dass ein Operator jede einzelne KI-Entscheidung manuell überprüft – eine bei Tausenden von Tickets pro Tag denkbar unpraktikable Option –, erhalten nur jene Fälle mit einer zugrunde liegenden Unsicherheit des Modells die menschliche Aufmerksamkeit. Die Aufsicht wird dadurch selektiv, zielgerichtet und dokumentierbar.

ITSM Confidence Scoring in der Praxis: Von Schwellenwerten zur Überprüfung

Der Wert des ITSM Confidence Scorings liegt in seiner Konfigurierbarkeit in Abhängigkeit vom Risiko. Nicht alle Entscheidungen haben dasselbe Gewicht. So muss der Schwellenwert auf die Fehlerkosten kalibriert werden, nicht auf die durchschnittliche Genauigkeit des Modells.

Aktivitäten, die traditionell manuell waren und vollständig vom Urteil der Operatoren abhingen, wie die Kategorisierung und das Routing von Incidents, gehören zu den ausgereiftesten KI-Anwendungen im ITSM: Das Modell klassifiziert die Meldung, schätzt ihre Dringlichkeit ein und leitet sie an das am besten geeignete Team weiter. Genau hier macht der Konfidenz-Schwellenwert den Unterschied.

Für die automatische Ticket-Kategorisierung – eine repetitive, risikoarme und leicht umkehrbare Aktivität – kann eine Organisation einen relativ niedrigen Schwellenwert festlegen: Wenn die KI zu 90 % sicher ist, wird die Kategorie ohne menschliches Eingreifen angewendet. Für eine sensiblere Aktion, wie die automatische Einleitung eines Change-Verfahrens, wird der Schwellenwert deutlich höher sein oder die menschliche Überprüfung bleibt unabhängig vom Score immer obligatorisch.

Unterschiedliche Schwellenwerte für unterschiedliche Risiken

Dasselbe Prinzip gilt über die Kategorisierung hinaus. Man denke an den automatischen Vorschlag eines Knowledge-Base-Artikels, der einen Operator bei der Bearbeitung eines Tickets erreicht: Wenn die KI den Artikel mit einem hohen Zuverlässigkeitsniveau vorschlägt, kann sie ihn direkt in den Vordergrund stellen (der Operator behält jedoch in jedem Fall das letzte Wort, auch wenn das Risiko minimal ist).

Anders verhält es sich bei einer KI-generierten Antwort, die eigenständig an den Endnutzer gesendet wird: Hier würde ein falscher Vorschlag direkt denjenigen erreichen, der die Anfrage gestellt hat, mit unmittelbaren Auswirkungen auf seine Erfahrung. Deshalb wird der Zuverlässigkeit-Schwellenwert, der für ein Vorgehen ohne Aufsicht erforderlich ist, deutlich höher sein. In vielen Kontexten bleibt die Überprüfung durch einen Operator vor dem Versand ohnehin obligatorisch. Die Fehlerkosten, nicht die technische Komplexität der Aktivität, bestimmen immer, wo der Schwellenwert festzulegen ist.

Das vom Customer Advisory Board von EasyVista veröffentlichte Strategiedokument beschreibt dieses Schema nach dem Modell der Human-Governed Automation: Es werden explizite Toleranzschwellen für die KI-Autonomie festgelegt und das Confidence Scoring ermöglicht bedingte Genehmigungsworkflows. Die menschliche Überprüfung wird in diesem Schema nicht als Engpass, sondern als Lernmechanismus betrachtet: Jede Korrektur eines Operators wird zu einem Signal, welches das Modell im Laufe der Zeit verbessert. Daraus entsteht ein Kreislauf: Die KI schlägt vor, der Operator verfeinert, das Modell „lernt“.

Ein Kompass für die Entscheidung, was künftig automatisiert werden soll

Es gibt einen häufig unterschätzten zweiten Nutzen des ITSM Confidence Scorings: Die im Laufe der Zeit beobachteten Confidence Scores zeigen an, wo die Automatisierung sicher wachsen kann. Wenn ein KI-Modell für einen bestimmten Workflow konstant hohe Scores erzeugt und die menschlichen Überprüfungen seine Vorschläge systematisch bestätigen, ist dieser Workflow ein logischer Kandidat für mehr Autonomie. Umgekehrt signalisiert ein Prozess, bei dem die Scores niedrig bleiben oder menschliche Korrekturen häufig sind, dass die Zeit noch nicht reif ist.

Dieses Prinzip der schrittweisen Erweiterung steht im Mittelpunkt des Ansatzes von EasyVista, der ausgehend von Assistenz und stark kontrollierter Automatisierung innerhalb der realen IT-Arbeit die Autonomie schrittweise erweitert, sobald die Ergebnisse konstant sind.

Das ist die Logik der sogenannten Adaptive Autonomy: Agenten, die über die Zeit eine hohe Genauigkeit aufrechterhalten, gewinnen schrittweise mehr Autonomie, während jene, deren Leistung nachlässt, wieder unter menschliche Kontrolle gebracht werden. Das Confidence Scoring liefert die objektiven Daten, auf die diese Entscheidungen gestützt werden können: Aus Intuition wird Evidenz.

Ein notwendiger Vorbehalt: Der Score ist nicht unfehlbar

Es wäre ein Fehler, den Confidence Score als absolute Wahrheit zu betrachten. Auch für eine falsche Vorhersage kann ein hoher Score vorliegen: Sicherheit ist also nicht unbedingt gleichbedeutend mit Korrektheit. Deshalb verlassen sich die robustesten Architekturen nicht auf einen einzigen Score, sondern kombinieren mehrere Signale – Indikatoren für die allgemeine Zuverlässigkeit und spezifische Risikohinweise –, um auch jene Fälle abzufangen, in denen das Modell einer falschen Antwort eine hohe Zuverlässigkeit zuschreibt.

Im ITSM führt dies zu einer praktischen Regel: Der Konfidenz-Schwellenwert muss durch Kontext-Kontrollen ergänzt werden. Eine Aktion mit hohen wirtschaftlichen oder regulatorischen Auswirkungen sollte immer eine menschliche Überprüfung erfordern, unabhängig vom von der KI ausgedrückten Score. Das Confidence Scoring ersetzt nicht das Urteilsvermögen, es lenkt es dorthin, wo es gebraucht wird.

Kontrolle und Vertrauen wachsen gemeinsam

ITSM Confidence Scoring ist zugleich ein Prinzip und ein organisatorischer Mechanismus, der die KI-Einführung nachhaltig macht. Es ermöglicht, mit hoher Kontrolle zu beginnen, die Autonomie nur dort zu erweitern, wo die Ergebnisse es rechtfertigen, und immer eine Person zu haben, die bei wichtigen Entscheidungen eingreift. So gelangt die KI von ständig zu überwachenden Pilotprojekten zu einer Automatisierung, der die Teams wirklich vertrauen können. Organisationen mit diesem Ansatz verzichten nicht auf die Geschwindigkeit der KI, sondern erhalten sie ohne Kontrollverlust. Auf diese Weise lässt sich Vertrauen Workflow für Workflow aufbauen.

FAQs

1. Was ist ITSM Confidence Scoring? 

Es ist ein Mechanismus, der jedem KI-Vorschlag einen Zuverlässigkeitsscore zuweist und diesen mit vordefinierten Schwellenwerten verknüpft. Oberhalb des Schwellenwerts handelt die KI eigenständig, unterhalb des Schwellenwerts wird die Entscheidung zur Überprüfung an einen menschlichen Operator weitergeleitet. Es ermöglicht eine schrittweise KI-Einführung ohne Verlust der operativen Kontrolle.

2. Warum ist es wichtig, menschliches Eingreifen im Entscheidungsprozess beizubehalten?

KI kann Fehler machen und im IT-Bereich haben einige Entscheidungen erhebliche Auswirkungen. Mehr als 80 % der von EasyVista befragten Organisationen bevorzugen eine moderate bis umfassende menschliche Kontrolle. Darüber hinaus verlangt der EU AI Act eine wirksame menschliche Aufsicht über Hochrisiko-Systeme.

3. Wie wird der richtige Konfidenz-Schwellenwert festgelegt?

Der Schwellenwert muss auf die Fehlerkosten kalibriert werden, nicht auf die durchschnittliche Genauigkeit. Repetitive und umkehrbare Aktivitäten (wie die Ticket-Kategorisierung) tolerieren niedrigere Schwellenwerte, während Aktionen mit hohen Auswirkungen hohe Schwellenwerte oder eine immer obligatorische menschliche Überprüfung erfordern.

4. Dient das Confidence Scoring nur zur Kontrolle der KI?

Nein. Im Laufe der Zeit beobachtet, zeigen die Scores auch an, wo die Automatisierung sicher wachsen kann: Workflows mit konstant hohen Scores und wenigen menschlichen Korrekturen sind die natürlichen Kandidaten für mehr Autonomie.