Standard e requisiti per Data Warehouse
A cura di Lina Ferraiolo, Principal Consultant di Kirey Group
Il Data Lineage è un approccio al tracciamento dei dati fondamentale per l’implementazione di un robusto framework di Information Governance. Da anni un gran numero di normative insistono sull’importanza della tracciabilità del dato; per i Data Warehouse, la 285 suggerisce una documentazione delle procedure di estrazione, trasformazione, controllo, caricamento negli archivi accentrati e sfruttamento dei dati, al fine di consentire la verifica sulla qualità dei dati; anche i documenti emessi che normano il calcolo di indicatori di rischio e delle loro aggregazioni (575/2013 e BCBS 239) auspicano la presenza di materiali che esprimano la storia, l'elaborazione e l'ubicazione dei dati in esame affinché possono essere facilmente rintracciabili ("ciabilità dei dati").
L'importanza del Data Lineage per un governo dei dati traducibile in opportunità e valorizzazione
Con il concetto di lineage, ovvero con la relazione Source -Target tra dati intesi nella loro accezione tecnica o logica, attraverso il governo della connessione esistente fra il piano fisico dei dati ed il livello di business, è possibile costruire un modello di controllo che sia in grado di determinare in modo efficiente e sostenibile il livello qualitativo delle informazioni critiche e rilevanti per un processo aziendale.
Ma il data lineage è indubbiamente uno dei concetti che più ha contribuito ad un cambio di prospettiva rispetto alla Data Governance, andando ad evolvere il bisogno primario di rispondere alla compliance normativa, verso una più vasta organizzazione di servizi appoggiati sulle relazioni definite tra i dizionari di Business e Tecnici: per esempio, grazie al data lineage diventa più rapida la valutazione dell’Impact Analysis nei processi di Chance Management, si accresce la comprensione di processi qualora le informazioni utilizzate siano precedentemente generate, magari per altri scopi, o ancora si possono predisporre nuovi algoritmi di calcolo di KPI che inglobano nel valore su un dato, la contribuzione di quanto raccolto in fase di costruzione del dato stesso.
L’attenzione al tema del Data Lineage è quindi sempre più forte in quanto, costruire un adeguato approccio al tracciamento e all’evoluzione dei dati sia a livello di processo (in ottica di business) sia a livello di applicazioni (in ottica informatica), è fondamentale per l’implementazione di un robusto framework di Information Governance, necessario non solo per efficientare le procedure di gestione, aggregazione ed utilizzo delle informazioni, ma anche per fornire strumenti validi per l’analisi, la comprensione, la valorizzazione dei dati.
Ora, se il lineage orizzontale logico, magari affrontato per approssimazioni successive, può essere ragionevolmente di più agevole censimento e rilevazione, in quanto esprime il passaggio di informazioni da un processo ad un altro o l’applicazione di una regola di calcolo o di aggregazione, per quanto riguarda il lineage orizzontale fisico ci si presta a difficoltà di gran lunga più impegnative. Tale complessità è tanto più profonda quanto più si affrontano aree prive di documentazione, e per cui risulta necessario ispezionare il codice sorgente di elaborazione dei dati.
Anche se esistono tool di mercato in grado di effettuare automaticamente tali ispezioni, l’esperienza porta a diffidare dell’approvazione totale di una tale pratica, in quanto non tutto il codice operante in una azienda può essere scansionato fornendo i risultati attesi.
Inoltre, se l’iniziativa della Data Governance By Design può fornire procedure operative e regole precise per i nuovi sviluppi, e inquadrare le nuove attività monitorando con attenzione la predisposizione dei passi necessari a impostare e mantenere aggiornata la relazione di lineage, rimane il tema della gestione del pregresso, ovvero di tutto quanto nel corso della vita operativa di una azienda sia stato prodotto. Infine, l’approccio ad aree di business di minore rilevanza da inserire in un percorso di Data Governance può non avere la necessità di una fine e profonda rilevazione in termini di data lineage.
Un approccio alla Data Governance attraverso l'integrazione di Data Modeling
Con tali premesse si rende necessario, a nostro avviso, attingere alle competenze in ambito alla modellazione dati per Data Warehouse e Data Mart, e coniugarle alla necessità di un repository centralizzato che contempli le relazioni e le profondità storiche di cui necessita un impianto di Data Governance, mantenendo il focus sulla quota parte relativa ai dizionari logici e fisici. È importante quindi mantenere l’attenzione sul dato elementare, e parallelamente riflettere su un modello che collochi il dato elementare come un elemento atomico di un sistema più complesso. Il risultato propone un disegno del dato elementare come un elemento di granularità fine all’interno di una gerarchia; significa quindi individuare gli elementi a servizio della propria organizzazione dei dati che ricostruiscano e generino dei livelli ordinati di aggregazione in direzione, per esempio, dei Sistemi di Dati, o delle Applicazioni Gestionali.
L’estensione del concetto Source -Target tra gli elementi del medesimo livello gerarchico arricchisce, in ultima battuta, il modello, e una volta rilevato costituisce una prima approssimazione, una granularità meno fine, ma comunque descrittiva, dell’assegnazione del data lineage tra campi.
Può risultare sufficiente in certi casi, per mancanza di documentazione, o per mancanza di risorse, essere meno precisi, ma avere la consapevolezza del percorso e della movimentazione dei propri dati, per rispondere alle richieste normative, e porre le basi per il miglioramento dell’analisi, la comprensione e valorizzazione dei dati.