Easyvista IT blog

ITIL Root Cause Analysis: Svelare il Potere della Risoluzione dei Problemi

Scritto da EasyVista | Mar 21, 2024 4:14:09 PM

Nella gestione dei servizi IT (ITSM), i tempi di inattività possono tradursi in perdite significative per l'azienda; risolvere rapidamente la causa principale degli incidenti è fondamentale per garantire il successo della tua azienda. L’ITIL (Information Technology Infrastructure Library) Root Cause Analysis (RCA) è un approccio sistematico progettato per scoprire le problematiche sottostanti alle interruzioni dei servizi IT. Le strutture, le metodologie, i principi e le tecniche si basano sulla premessa che è più efficace risolvere e prevenire sistematicamente i problemi (ad esempio, impedire che si ripetano), piuttosto che limitarsi a spegnere ogni incendio. 

Questo post del blog approfondisce le complessità dell’ITIL RCA, le sue metodologie e la sua rilevanza nel mantenere solide le infrastrutture IT. 

Comprendere l'Analisi delle Cause Principali dell’ITIL 

Fondamentalmente, l’ITIL RCA è un metodo strutturato utilizzato per determinare le ragioni fondamentali che stanno alla base degli incidenti e dei problemi che si verificano all'interno di un ambiente IT. A differenza delle soluzioni superficiali che si limitano a risolvere i sintomi, la RCA mira a prevenire il ripetersi degli incidenti, migliorando l’affidabilità complessiva del sistema. 

Il fulcro della RCA verte su: 

  • Risolvere la causa principale di un problema IT, anziché limitarsi a risolvere i sintomi per fornire un sollievo a breve termine; 
  • Comprendere come prevenire il problema in futuro; 
  • Concentrarsi sul come e sul perché, non sul chi, per il problema; 
  • Trovare prove concrete a sostegno di qualsiasi affermazione sulla causa principale; 
  • Fornire informazioni per indicare quale sia la migliore linea d'azione per risolvere il problema. 

3 Vantaggi della RCA nella gestione dei servizi IT 

  1. Manutenzione Preventiva: identificando le cause profonde, le organizzazioni possono implementare misure preventive per mitigare gli incidenti futuri. Questo approccio proattivo riduce al minimo i tempi di inattività e aumenta l'efficienza operativa. 
  2. Miglioramento Continuo: la RCA promuove una cultura di miglioramento continuo all'interno delle operazioni IT. Analizzando gli incidenti passati, i team possono implementare azioni correttive e perfezionare i processi, migliorando l'erogazione del servizio e la soddisfazione del cliente. 
  3. Riduzione dei Costi: la risoluzione degli incidenti ricorrenti tramite RCA riduce la necessità di supporto reattivo e soluzioni di emergenza, riducendo così i costi operativi e ottimizzando l’utilizzo delle risorse.

3 Metodologie dell’ITIL RCA 

Esistono molteplici metodologie ben note utilizzate per condurre la RCA. Di seguito sono riportati 3 dei metodi e dei framework più popolari, utilizzati in vari settori. Provali tutti e verifica quale è maggiormente in linea con le tue esigenze e preferenze. 

Fault Tree Analysis (FTA) 

La Fault Tree Analysis (FTA) è un approccio top-down che rappresenta visivamente le potenziali cause di un incidente specifico ed esamina lo stato indesiderato di un sistema. Il sistema è stato originariamente sviluppato da H. Watson e A. Mearns nei laboratori Bell per l'Air Force nel 1962. Successivamente è stato adottato da Boeing ed è ora utilizzato da aziende del settore aerospaziale, chimico e del software per eventi di affidabilità. Suddividendo sistematicamente gli eventi in fattori contribuenti, la FTA aiuta ad individuare la causa principale (il risultato indesiderato viene preso come radice dell'albero logico) e le sue dipendenze. L'albero dei guasti viene generalmente scritto utilizzando i simboli delle “logic gate”. I simboli di base utilizzati nell'FTA sono eventi, gate e simboli di trasferimento. 

Simboli degli Eventi della FTA 

  • Evento di base: guasto o errore in un componente o elemento del sistema; 
  • Evento esterno: previsto che si verifichi; 
  • Evento non sviluppato: un evento per il quale non sono disponibili informazioni sufficienti; 
  • Evento condizionante: condizioni che limitano o influenzano le porte logiche. 

Simboli dei Gate FTA 

  • Gate OR: l'output si verifica se si verifica un qualsiasi input; 
  • Gate  AND: gli input sono indipendenti dalla sorgente (l'output avviene a prescindere); 
  • Gate  OR esclusivo: l'output si verifica se si verifica esattamente un input; 
  • Gate  AND prioritaria: l'output prodotto si verifica solo se gli input si verificano in una sequenza precisa, specificata da un evento condizionante; 
  • Gate  di inibizione: l'output previsto si verifica se avviene l'input, sebbene solo in una condizione di abilitazione specificata da un evento condizionante; 

Simboli di Trasferimento FTA 

I simboli di trasferimento “Trasferimento in ingresso” e “Trasferimento in uscita” vengono utilizzati per collegare gli ingressi e le uscite degli alberi dei guasti. 

Tecnica dei 5 Perché 

Il metodo dei 5 Perché della Root Cause Analysis si basa sull'idea di chiedersi più volte il "perché" per risalire alle origini dei problemi. La tecnica invita i team IT ad andare oltre le spiegazioni superficiali e a scoprire problemi sottostanti più profondi. Ti aiuta anche a evitare supposizioni e concentrarti su ciò che è accaduto. 

Come usarla: 

1 - Fai una domanda sul “perché succede qualcosa nel tuo software” o “perché il tuo prodotto fa x invece di y?”; 

2 - Per ogni risposta alla tua domanda PERCHÉ, chiedine un’altra, più profonda, “Ok, ma PERCHÉ?”. 

CONSIGLIO: un buon modo di considerare questo aspetto è immaginare che stai parlando con un bambino curioso, che è leggermente fastidioso e continua a chiederti: "Perché?" dopo avergli spiegato qualcosa. Se sei infastidito dalla quantità di perché che chiedi, sei sulla strada giusta. Più "perché" ti chiedi e scopri tutte le parti complesse della tua infrastruttura IT, più riuscirai a individuare i problemi e risolverli per migliorare la tua sicurezza/prodotto. 

Esempio 

Domanda 

Risposta 

Perché l'applicazione funziona lentamente per gli utenti? 

Il server che ospita l'applicazione ha un utilizzo elevato della CPU. 

Ok. Perché l'utilizzo della CPU è così elevato? 

Si è verificato un improvviso aumento degli accessi simultanei di utenti. 

E perché c’è un aumento degli accessi degli utenti? 

Una nuova campagna di marketing lanciata senza il contributo dell'IT. 

Perché l'IT non era a conoscenza della campagna? 

C'è una mancanza di comunicazione tra le squadre. 

Ok, e perché manca la comunicazione? 

Non esiste un processo formale per l’analisi dell’impatto del progetto. 

 Come puoi vedere, questo è un metodo utile ed informale per spingere i team a scavare un po’ più a fondo dei sintomi iniziali per capire cosa sta succedendo. All'inizio, avrà senso che i tecnici provino a gestire un utilizzo elevato della CPU, ma senza capire innanzitutto il motivo per cui ciò accade non arriveremo mai alla conclusione di risolvere il problema reale, che in questo caso è la mancanza di una notifica processo di analisi dell’impatto dei progetti. 

Diagramma di Ishikawa (Lisca di Pesce). 

Il diagramma di Ishikawa, noto anche come diagramma causa-effetto, classifica le potenziali cause di un problema in gruppi principali, come persone, processi, tecnologia e ambiente. Questo strumento visivo facilita l'analisi collaborativa e la risoluzione olistica dei problemi. 

Come usarlo: 

1 - Inizia con il problema al centro del diagramma (la spina dorsale dello scheletro del pesce); 

2 - Fai brainstorming su diverse categorie delle cause (posizionate nei rami esterni della linea principale, le costole del pesce); 

3 - Raggruppa le categorie e suddividile in parti più piccole (ad esempio, "Persone" potrebbe essere una potenziale causa principale della "formazione"); 

4 - Scava più a fondo nelle potenziali cause e sotto-cause: interroga ogni ramo per avvicinarti alla radice del problema in questione; 

5 - Elimina le categorie non correlate e identifica i fattori correlati (ad esempio, le cause profonde). 

Categorie Comuni da Includere: 

  • Macchina (attrezzature, tecnologia); 
  • Fattore uomo/mente (lavoro fisico o di conoscenza); 
  • Missione (scopo, aspettativa); 
  • Management/potere monetario (leadership); 
  • Prodotto (o servizio); 
  • Prezzo; 
  • Processo (sistemi); 
  • Persone. 

Come Implementare Pratiche RCA Efficaci 

Con efficaci pratiche RCA in atto per la gestione dei servizi IT, sarai in grado di diagnosticare e affrontare qualsiasi problema relativo all'IT in modo proattivo, facendo potenzialmente risparmiare alla tua organizzazione centinaia di migliaia o addirittura milioni di dollari. I tre passaggi seguenti delineano una panoramica delle migliori pratiche consigliate per implementare con successo la RCA nella tua organizzazione. 

  • Stabilisci Procedure Chiare: definisci procedure standardizzate a livello aziendale per condurre l'analisi delle cause profonde dell'IT. Assicurati di delineare ruoli e responsabilità all'interno del team RCA e di stabilire criteri chiari per dare priorità agli incidenti in base al loro impatto e alla loro frequenza. 
  • Promuovi la Collaborazione: promuovi una comunicazione aperta e la condivisione delle conoscenze tra i team RCA per ottenere prospettive e informazioni diverse. 
  • Documenta i Risultati: documenta i risultati dell'analisi delle cause principali in una knowledge base centralizzata, comprese le cause principali identificate e le azioni consigliate. Questo repository fungerà da preziosa risorsa per riferimenti futuri e faciliterà l'apprendimento organizzativo. 

L’ITIL Root Cause Analysis è una colonna portante per un'efficace gestione dei servizi IT, consentendo alle organizzazioni di diagnosticare e affrontare i problemi sottostanti in modo proattivo. Adottando metodologie RCA strutturate e promuovendo una cultura di miglioramento continuo, le aziende possono migliorare la resilienza operativa, ridurre i costi e fornire servizi superiori ai propri clienti. Abbracciare la RCA non significa semplicemente risolvere gli incidenti; si tratta di coltivare una mentalità orientata alla risoluzione dei problemi e all'innovazione che guida il successo a lungo termine nel panorama in continua evoluzione delle operazioni IT. 

La release 2024.1 del nostro prodotto comprende analisi delle cause principali, accessibilità digitale, rilevamento automatizzato delle risorse IT e aggiornamenti migliorati delle funzionalità IA. La roadmap Discovery & Dependency Mapping (DDM) di EV Discovery aiuta i clienti a ottenere una visione a 360 gradi del loro panorama IT, automatizzare la gestione delle risorse e della configurazione, tenere traccia delle modifiche e mantenere le tracce di controllo; si integra perfettamente con i prodotti ITSM di EasyVista: si prevede che ulteriori funzionalità di mappatura delle dipendenze verranno implementate più avanti nel 2024.