Nella gestione dei servizi IT (ITSM), i tempi di inattività possono tradursi in perdite significative per l'azienda; risolvere rapidamente la causa principale degli incidenti è fondamentale per garantire il successo della tua azienda. L’ITIL (Information Technology Infrastructure Library) Root Cause Analysis (RCA) è un approccio sistematico progettato per scoprire le problematiche sottostanti alle interruzioni dei servizi IT. Le strutture, le metodologie, i principi e le tecniche si basano sulla premessa che è più efficace risolvere e prevenire sistematicamente i problemi (ad esempio, impedire che si ripetano), piuttosto che limitarsi a spegnere ogni incendio.
Questo post del blog approfondisce le complessità dell’ITIL RCA, le sue metodologie e la sua rilevanza nel mantenere solide le infrastrutture IT.
Fondamentalmente, l’ITIL RCA è un metodo strutturato utilizzato per determinare le ragioni fondamentali che stanno alla base degli incidenti e dei problemi che si verificano all'interno di un ambiente IT. A differenza delle soluzioni superficiali che si limitano a risolvere i sintomi, la RCA mira a prevenire il ripetersi degli incidenti, migliorando l’affidabilità complessiva del sistema.
Esistono molteplici metodologie ben note utilizzate per condurre la RCA. Di seguito sono riportati 3 dei metodi e dei framework più popolari, utilizzati in vari settori. Provali tutti e verifica quale è maggiormente in linea con le tue esigenze e preferenze.
La Fault Tree Analysis (FTA) è un approccio top-down che rappresenta visivamente le potenziali cause di un incidente specifico ed esamina lo stato indesiderato di un sistema. Il sistema è stato originariamente sviluppato da H. Watson e A. Mearns nei laboratori Bell per l'Air Force nel 1962. Successivamente è stato adottato da Boeing ed è ora utilizzato da aziende del settore aerospaziale, chimico e del software per eventi di affidabilità. Suddividendo sistematicamente gli eventi in fattori contribuenti, la FTA aiuta ad individuare la causa principale (il risultato indesiderato viene preso come radice dell'albero logico) e le sue dipendenze. L'albero dei guasti viene generalmente scritto utilizzando i simboli delle “logic gate”. I simboli di base utilizzati nell'FTA sono eventi, gate e simboli di trasferimento.
Simboli degli Eventi della FTA
Simboli dei Gate FTA
Simboli di Trasferimento FTA
I simboli di trasferimento “Trasferimento in ingresso” e “Trasferimento in uscita” vengono utilizzati per collegare gli ingressi e le uscite degli alberi dei guasti.
Il metodo dei 5 Perché della Root Cause Analysis si basa sull'idea di chiedersi più volte il "perché" per risalire alle origini dei problemi. La tecnica invita i team IT ad andare oltre le spiegazioni superficiali e a scoprire problemi sottostanti più profondi. Ti aiuta anche a evitare supposizioni e concentrarti su ciò che è accaduto.
Come usarla:
1 - Fai una domanda sul “perché succede qualcosa nel tuo software” o “perché il tuo prodotto fa x invece di y?”;
2 - Per ogni risposta alla tua domanda PERCHÉ, chiedine un’altra, più profonda, “Ok, ma PERCHÉ?”.
CONSIGLIO: un buon modo di considerare questo aspetto è immaginare che stai parlando con un bambino curioso, che è leggermente fastidioso e continua a chiederti: "Perché?" dopo avergli spiegato qualcosa. Se sei infastidito dalla quantità di perché che chiedi, sei sulla strada giusta. Più "perché" ti chiedi e scopri tutte le parti complesse della tua infrastruttura IT, più riuscirai a individuare i problemi e risolverli per migliorare la tua sicurezza/prodotto.
Esempio
Domanda |
Risposta |
Perché l'applicazione funziona lentamente per gli utenti? |
Il server che ospita l'applicazione ha un utilizzo elevato della CPU. |
Ok. Perché l'utilizzo della CPU è così elevato? |
Si è verificato un improvviso aumento degli accessi simultanei di utenti. |
E perché c’è un aumento degli accessi degli utenti? |
Una nuova campagna di marketing lanciata senza il contributo dell'IT. |
Perché l'IT non era a conoscenza della campagna? |
C'è una mancanza di comunicazione tra le squadre. |
Ok, e perché manca la comunicazione? |
Non esiste un processo formale per l’analisi dell’impatto del progetto. |
Come puoi vedere, questo è un metodo utile ed informale per spingere i team a scavare un po’ più a fondo dei sintomi iniziali per capire cosa sta succedendo. All'inizio, avrà senso che i tecnici provino a gestire un utilizzo elevato della CPU, ma senza capire innanzitutto il motivo per cui ciò accade non arriveremo mai alla conclusione di risolvere il problema reale, che in questo caso è la mancanza di una notifica processo di analisi dell’impatto dei progetti.
Il diagramma di Ishikawa, noto anche come diagramma causa-effetto, classifica le potenziali cause di un problema in gruppi principali, come persone, processi, tecnologia e ambiente. Questo strumento visivo facilita l'analisi collaborativa e la risoluzione olistica dei problemi.
Come usarlo:
1 - Inizia con il problema al centro del diagramma (la spina dorsale dello scheletro del pesce);
2 - Fai brainstorming su diverse categorie delle cause (posizionate nei rami esterni della linea principale, le costole del pesce);
3 - Raggruppa le categorie e suddividile in parti più piccole (ad esempio, "Persone" potrebbe essere una potenziale causa principale della "formazione");
4 - Scava più a fondo nelle potenziali cause e sotto-cause: interroga ogni ramo per avvicinarti alla radice del problema in questione;
5 - Elimina le categorie non correlate e identifica i fattori correlati (ad esempio, le cause profonde).
Categorie Comuni da Includere:
Con efficaci pratiche RCA in atto per la gestione dei servizi IT, sarai in grado di diagnosticare e affrontare qualsiasi problema relativo all'IT in modo proattivo, facendo potenzialmente risparmiare alla tua organizzazione centinaia di migliaia o addirittura milioni di dollari. I tre passaggi seguenti delineano una panoramica delle migliori pratiche consigliate per implementare con successo la RCA nella tua organizzazione.
L’ITIL Root Cause Analysis è una colonna portante per un'efficace gestione dei servizi IT, consentendo alle organizzazioni di diagnosticare e affrontare i problemi sottostanti in modo proattivo. Adottando metodologie RCA strutturate e promuovendo una cultura di miglioramento continuo, le aziende possono migliorare la resilienza operativa, ridurre i costi e fornire servizi superiori ai propri clienti. Abbracciare la RCA non significa semplicemente risolvere gli incidenti; si tratta di coltivare una mentalità orientata alla risoluzione dei problemi e all'innovazione che guida il successo a lungo termine nel panorama in continua evoluzione delle operazioni IT.
La release 2024.1 del nostro prodotto comprende analisi delle cause principali, accessibilità digitale, rilevamento automatizzato delle risorse IT e aggiornamenti migliorati delle funzionalità IA. La roadmap Discovery & Dependency Mapping (DDM) di EV Discovery aiuta i clienti a ottenere una visione a 360 gradi del loro panorama IT, automatizzare la gestione delle risorse e della configurazione, tenere traccia delle modifiche e mantenere le tracce di controllo; si integra perfettamente con i prodotti ITSM di EasyVista: si prevede che ulteriori funzionalità di mappatura delle dipendenze verranno implementate più avanti nel 2024.