Ormai è chiaro: i dati sono il cuore pulsante di un’azienda moderna. Qualsiasi interazione o processo genera dati che, se opportunamente gestiti e valorizzati, possono creare un vantaggio competitivo concreto. Tuttavia, il semplice possesso di enormi quantità di dati grezzi (raw) non garantisce alcun valore: la sfida risiede nella capacità di trasformarli in informazioni utili, accurate e tempestive, capaci di supportare decisioni strategiche e operative.
In un precedente approfondimento, abbiamo esaminato le sfide che le aziende devono affrontare nel percorso di trasformazione data-driven, sottolineando come quelle tecniche siano solo una parte del tutto. Ora, però, ci concentriamo proprio su quelle: fonti eterogenee di dati, formati non strutturati, silos, volumi e varietà che crescono esponenzialmente, si sommano a problemi legati alla qualità e all'integrità del dato, riducendo la capacità di ottenere insight vincenti.
Il processo che porta ordine in questa situazione e guida il dato fino alla sua valorizzazione è noto come Data Pipeline. Ecco come funziona.
Per definizione, una data pipeline è il percorso strutturato che va dall’acquisizione dei dati fino all’integrazione in un data store, come un database SQL/NoSQL o un data lake, per essere poi soggetto ad attività di analisi ed eventuale visualizzazione per finalità di reporting e analytics.
La necessità di una pipeline di dati dipende dal fatto i dati sono profondamente eterogenei tra di loro e necessitano quindi di trasformazione, correzione e standardizzazione prima di essere integrati con altre informazioni e analizzati. In mancanza di ciò, l’azienda si sottopone a un inaccettabile incremento del rischio derivante da potenziali errori nei dati, mancanze e, più in generale, da un livello di Data Quality inadeguato alle finalità di qualsiasi progetto.
Ogni pipeline di dati va progettata in funzione delle esigenze dello specifico progetto, del suo obiettivo e, in senso lato, del proprio business. A livello di tipologia, la macro-ripartizione è tra pipeline di batch processing e di realtime processing, laddove la prima opera sui dati in momenti ben definiti e la seconda punta a presentare l’informazione ai data consumer (utente finale, ma anche alle applicazioni) in tempo reale o in near-real-time.
Il primo caso (batch) è ideale per la gestione efficiente di enormi volumi di dati, la cui disponibilità e le analisi non sono però necessarie nell’immediato (reporting periodico, attività non-core…), mentre tutte le applicazioni di analisi (analytics) che necessitano di un riscontro istantaneo rientrano nella seconda categoria, che ovviamente richiede soluzioni più complesse e, in particolare, una piattaforma dedicata alla gestione dei dati in streaming (come Apache Kafka, per citare un esempio molto diffuso nel mondo open source).
Anche sulle fasi esiste un certo livello di variabilità dipendente dall’azienda, dall’architettura dei suoi dati, dalle applicazioni e dagli obiettivi. Si è però soliti identificare tre passaggi chiave: l’ingestion, la preparazione e lo storage, che favorisce l’accesso istantaneo ai dati e qualsiasi forma di analisi e successiva visualizzazione.
La prima fase di una pipeline di dati è la cosiddetta ingestion, ovvero il processo di acquisizione dei dati da diverse fonti. È un passaggio complesso e delicato, poiché in un contesto enterprise tradizionale, i dati vivono in silos e non comunicano all’interno di piattaforme centralizzate.
Qualsiasi azienda moderna si basa su molteplici fonti di dati: i database relazionali e non (NoSQL), file di log, sensori IoT e flussi in tempo reale come dati da piattaforme di e-commerce o social media. L’obiettivo dell’ingestion è assicurare che vengano acquisiti tutti i dati necessari per un determinato fine, che il processo sia affidabile e senza perdite, indipendentemente dall’origine e dal formato dei dati.
Per garantire la scalabilità e la resilienza, molte pipeline moderne adottano architetture basate su framework e tecnologie distribuite, capaci di gestire grandi volumi di dati in modo efficiente. È in questa fase che si decide anche la frequenza dell’acquisizione, che come visto può essere in tempo reale (streaming) o batch, a seconda delle necessità aziendali.
La fase che impegna di più i professionisti è quella di preparazione perché, come detto, difficilmente i dati possono essere utilizzati nella loro forma originale. Questa fase è finalizzata a renderli fruibili ai fini del progetto, ovvero accurati, coerenti e completi. In altri termini, questa fase li rende dati di qualità.
Sono diversi gli step che rientrano nell’ampio concetto di preparazione dei dati. Tra queste:
Un’altra espressione importantissima che rientra nel macrocosmo della Data Preparation è Data Lineage, ovvero la tracciabilità del dato. In particolare, ci si riferisce alla capacità di tracciare l’intero percorso del dato: dalla sua origine (sorgenti) fino alle trasformazioni subite e al punto finale in cui viene memorizzato o utilizzato.
La terza fase riguarda lo storage, dove i dati vengono memorizzati in modo strutturato e accessibile per le analisi. Questa scelta dipende dal tipo di dato e di utilizzo previsto: i dati strutturati, utilizzati per applicazioni o dashboard, possono essere memorizzati in database relazionali; quelli non strutturati, che rappresentano la stragrande maggioranza dei contenuti di un’organizzazione, vengono spesso raccolti all’interno dei data lake.
Esistono poi architetture di dati moderne come il data mesh e il data fabric che riducono la necessità di copiare i dati in un unico repository centralizzato, offrendo un approccio più distribuito e flessibile. Queste architetture si basano su tecnologie e principi che permettono di accedere ai dati direttamente alla sorgente, mantenendoli nei loro sistemi originali, ma rendendoli comunque disponibili per l'analisi e l'utilizzo.
A questo punto, i dati sono pronti per l’analisi, ovvero per diventare insight strategici e/o operativi. A tal fine, e mantenendo il livello di osservazione piuttosto alto, esistono diverse tipologie di analisi, tra cui quelle descrittive, predittive e prescrittive. Se la prima fa luce sul passato, la seconda prevede scenari futuri grazie a modelli matematici e algoritmi di machine learning, e la terza suggerisce (anche) azioni concrete basate sui dati, simulando l’impatto di diverse scelte operative.
Ovviamente, il valore reale emerge quando l’analisi viene integrata nei processi decisionali attraverso dashboard interattive e strumenti di business intelligence, ma soprattutto quando le decisioni basate sui dati vengono diffuse orizzontalmente in tutta l’organizzazione, plasmandone la cultura. Non a caso, la data democratization resta una grande sfida per molte strutture.
Infine, l’analisi del dato non si limita a migliorare decisioni e processi interni, ma può plasmare il modello di business. Ad esempio, un’azienda può vendere gli insight a partner e clienti, generando una nuova forma di revenue; si parla, a tal fine, di data monetization. Comunque sia, la capacità di sfruttare gli enormi volumi di dati in proprio possesso differenzia le organizzazioni e costituisce un asset strategico per il successo di qualsiasi business.