Un data warehouse è un tipo di sistema di data management progettato per abilitare e supportare le attività di business intelligence (BI), in particolare gli analytics. I data warehouse servono esclusivamente a eseguire query e analisi e spesso contengono grandi quantità di dati storici. I dati all'interno di un data warehouse sono generalmente derivati da una vasta gamma di origini come i file di registro dell'applicazione e le applicazioni di transazione.
Un data warehouse centralizza e consolida grandi quantità di dati da più origini. Le sue capacità analitiche consentono alle organizzazioni di ricavare importanti insight sul business dai loro dati per migliorare il processo decisionale. Nel tempo, crea un record storico che può risultare prezioso per i data scientist e i business analyst. Grazie a queste funzionalità, un data warehouse può essere considerato un'unica fonte affidabile di dati aziendali.
Un tipico data warehouse spesso include i seguenti elementi:
Le organizzazioni possono anche scegliere una soluzione che unisce elaborazione delle transazioni, analytics in tempo reale tra data warehouse e data lake e machine learning in un unico servizio MySQL Database, senza la complessità, la latenza, i costi e i rischi di duplicazione ETL (extract, transform and load).
I data warehouse offrono il vantaggio esclusivo e unico di consentire alle organizzazioni di analizzare grandi quantità di dati Variant e di ricavarne un valore significativo, oltre a mantenere un record storico.
Quattro caratteristiche uniche (descritte dal computer scientist William Inmon, considerato il padre del data warehouse) consentono ai data warehouse di fornire questo vantaggio generale. Secondo questa definizione, i data warehouse sono
Un data warehouse ben progettato eseguirà le query molto rapidamente, fornirà un throughput di dati elevato e offrirà agli utenti finali una flessibilità sufficiente per scomporre o ridurre il volume dei dati per un esame più approfondito, in modo da soddisfare una varietà di richieste, generali o molto approfondite e dettagliate. Il data warehouse funge da base funzionale per gli ambienti di BI middleware che forniscono agli utenti finali report, dashboard e altre interfacce.
L'architettura di un data warehouse è determinata dalle esigenze specifiche dell'organizzazione. Di seguito sono indicate alcune delle architetture comuni:
Quando sono apparsi alla fine degli anni '80, i primi data warehouse avevano lo scopo di semplificare il flusso di dati dai sistemi operativi ai sistemi di supporto alle decisioni (DSS). Questi primi data warehouse richiedevano un'enorme quantità di ridondanza. La maggior parte delle organizzazioni disponeva di più ambienti DSS per la gestione di vari utenti. Sebbene gli ambienti DSS usassero gran parte degli stessi dati, le operazioni di raccolta, pulizia e integrazione dei dati venivano spesso replicate per ogni ambiente.
Con l'aumentare della loro efficienza, i data warehouse si sono evoluti da semplici archivi di informazioni che supportavano le tradizionali piattaforme di BI in ampie infrastrutture di analisi che supportano un'ampia varietà di applicazioni, tra cui analisi operativa e gestione delle performance.
Le iterazioni del data warehouse sono migliorate nel tempo per fornire alle aziende un maggior valore incrementale con l'enterprise data warehouse (EDW).
Fase | Funzionalità | Valore aziendale |
---|---|---|
1 | Reporting transazionale | Fornisce informazioni relazionali per creare snapshot delle performance aziendali |
2 | Analisi approfondita, query ad hoc, strumenti di BI | Espande le funzionalità per insight più approfonditi e analisi più potenti |
3 | Previsione delle performance future (data mining) | Sviluppa visualizzazioni e business intelligence predittiva |
4 | Analisi tattica (spaziale, statistica) | Offre scenari "what-if" per prendere decisioni pratiche basate su analisi più complete |
5 | Archivia molti mesi o anni di dati | Archivia i dati solo per settimane o mesi |
Il supporto di ognuno di questi cinque passaggi ha richiesto una crescente varietà di set di dati. Gli ultimi tre passaggi in particolare creano l'imperativo per una gamma ancora più ampia di dati e funzionalità di analisi.
Oggi, l'AI e il machine learning stanno trasformando le risorse di quasi ogni settore, servizio e azienda e i data warehouse non fanno eccezione. L'espansione dei Big Data e l'applicazione di nuove tecnologie digitali stanno favorendo il cambiamento nell'ambito dei requisiti e delle capacità dei data warehouse.
Il data warehouse autonomo è l'ultimo passaggio di questa evoluzione, in quanto offre alle aziende la possibilità di estrarre ancora più valore dai propri dati, riducendo al contempo i costi e migliorando l'affidabilità e le performance del data warehouse.
Scopri di più sui data warehouse autonomi e su come iniziare a utilizzarli.
Sebbene svolgano ruoli simili, i data warehouse sono diversi dai data mart e dagli archivi dati di operations (ODS). Un data mart svolge le stesse funzioni di un data warehouse ma in un ambito molto più limitato, di solito una singola divisione o linea di business. Questo rende i data mart più facili da definire rispetto ai data warehouse. Tendono tuttavia a introdurre un'incoerenza perché può essere difficile gestire e controllare in modo uniforme i dati su numerosi data mart.
Gli ODS supportano solo operations quotidiane, quindi hanno una vista dei dati storici molto limitata. Sebbene funzionino molto bene come origini di dati correnti e siano spesso utilizzati come tali dai data warehouse, non supportano query storiche complesse.
Un data warehouse cloud utilizza il cloud per acquisire e archiviare dati da origini dati disparate.
I data warehouse originali sono stati creati su server on-premise. Questi data warehouse on-premise continuano a offrire molti vantaggi ancora oggi. In molti casi possono offrire migliore gestione del controllo, sicurezza, sovranità dei dati e latenza. Tuttavia, i data warehouse on-premise non sono tanto elastici e richiedono previsioni complesse per determinare come ridimensionare il data warehouse per esigenze future. Anche la gestione di questi data warehouse può essere molto complessa.
D'altra parte, alcuni dei vantaggi dei data warehouse cloud includono:
I migliori data warehouse cloud sono completamente gestiti e self-driving, assicurando che anche i principianti possano essere in grado di creare e utilizzare un data warehouse con pochi clic. Un modo semplice per avviare la migrazione a un data warehouse cloud è quello di eseguire il tuo data warehouse sul cloud on premise, oltre al firewall del data center che rispetta i requisiti di indipendenza e sicurezza dei dati.
Inoltre, la maggior parte dei data warehouse cloud segue un modello Pay-as-you-Go, che offre ai clienti ulteriori risparmi sui costi.
Indipendentemente dal fatto che facciano parte di team IT, di data engineering, Business Analytics o data science, utenti diversi in un'organizzazione hanno esigenze diverse quando si tratta di data warehousing.
Una moderna architettura dei dati risponde a queste diverse esigenze fornendo un modo per gestire tutti i tipi di dati, carichi di lavoro e analisi. È costituita da modelli di architettura con componenti necessari integrati per lavorare insieme in linea con le best practice del settore. Il moderno data warehouse include:
Un moderno data warehouse può ottimizzare efficientemente i flussi di lavoro dei dati in modi non equiparabili da altri warehouse. Ciò significa che tutti, dagli analisti ai data engineer, dai data scientist ai team IT, possono svolgere il proprio lavoro in modo più efficace e perseguire il lavoro innovativo che fa avanzare l'organizzazione, senza innumerevoli ritardi e complessità.
Quando un'organizzazione decide di progettare un data warehouse, deve iniziare definendo i propri specifici requisiti aziendali, concordando l'ambito e stabilendo una progettazione concettuale. L'organizzazione può quindi creare sia la progettazione logica che fisica del data warehouse. La progettazione logica riguarda le relazioni tra gli oggetti, mentre quella fisica riguarda il modo migliore per archiviare e recuperare gli oggetti. La progettazione fisica include anche processi di trasporto, backup e ripristino.
Qualsiasi progettazione di data warehouse deve prendere in considerazione quanto segue:
Un fattore primario nella progettazione è rappresentato dalle esigenze degli utenti finali. La maggior parte degli utenti finali è interessata a eseguire analisi e considerare i dati in forma aggregata, anziché come singole transazioni. Tuttavia, spesso gli utenti finali non sanno veramente cosa vogliono fino a quando non si presenta una specifica esigenza. Il processo di pianificazione dovrebbe pertanto includere un'esplorazione tale da riuscire a prevenire le necessità. La progettazione del data warehouse dovrebbe infine prevedere spazio per l'espansione e l'evoluzione al fine da poter tenere il passo con le esigenze in continua evoluzione degli utenti finali.
I data warehouse in cloud offrono caratteristiche e vantaggi equivalenti a quelli dei data warehouse on-premise, oltre agli ulteriori vantaggi garantiti dal cloud computing, quali flessibilità, scalabilità, agilità, sicurezza e costi ridotti. I data warehouse cloud permettono alle aziende di dedicarsi esclusivamente a ottenere maggiore valore dai dati, anziché doversi impegnare a creare e gestire l'infrastruttura hardware e software ai fini del supporto del data warehouse.
Le organizzazioni utilizzano sia i data lake sia i data warehouse per grandi volumi di dati da varie origini. La scelta di quando utilizzare l'uno o l'altro dipende dal modo in cui l'organizzazione prevede di utilizzare i dati. Di seguito viene indicato come viene usato al meglio ciascuno di essi:
I data warehouse sono ambienti relazionali utilizzati per l'analisi dei dati, in particolare dei dati storici. Le organizzazioni utilizzano i data warehouse per scoprire modelli e relazioni nei loro dati che si sviluppano nel tempo.
Al contrario, gli ambienti transazionali vengono utilizzati per elaborare le transazioni su base continuativa e vengono comunemente utilizzati per gli ordini e le transazioni finanziarie e retail. Non si basano sui dati storici; infatti, negli ambienti OLTP, i dati storici vengono spesso archiviati o semplicemente eliminati per migliorare le performance.
I data warehouse e i sistemi OLTP differiscono in modo significativo.
Data warehouse | Sistema OLTP | |
---|---|---|
Carico di lavoro | Ospita analisi dei dati e query ad hoc | Supporta solo operations predefinite |
Modifiche dei dati | Esegue aggiornamenti automatici su base regolare | Aggiornamenti da parte degli utenti finali che rilasciano dichiarazioni individuali |
Schema struttura | Utilizza schemi parzialmente denormalizzati per ottimizzare le performance | Utilizza schemi completamente normalizzati per garantire la coerenza dei dati |
Scansione dei dati | Comprende da migliaia a milioni di righe | Accede solo a pochi record alla volta |
Dati storici | Archivia molti mesi o anni di dati | Archivia i dati solo per settimane o mesi |
L'iterazione più recente del data warehouse è il data warehouse autonomo, che si basa su AI e machine learning per eliminare le attività manuali e semplificare configurazione, implementazione e gestione dei dati. Un data warehouse autonomo distribuito come servizio in cloud non richiede alcun intervento umano per attività di amministrazione del database, configurazione o gestione dell'hardware o installazione del software.
La creazione del data warehouse, il backup, l'applicazione di patch, l'aggiornamento del database e l'espansione o la riduzione del database vengono eseguiti automaticamente, con la stessa flessibilità, scalabilità, agilità e riduzione dei costi offerte dalle piattaforme cloud. Il data warehouse autonomo rimuove la complessità, accelera l'implementazione e libera le risorse, consentendo alle organizzazioni di concentrarsi su attività che aggiungono valore al business.
Oracle Autonomous Data Warehouse è un data warehouse completamente autonomo, facile da usare e a scalabilità flessibile, che oltre a offrire elevate performance delle query, non richiede alcun tipo di amministrazione del database. La configurazione di Oracle Autonomous Data Warehouse è molto semplice e veloce.