Wat is een datawarehouse?

Definitie van datawarehouse

Een datawarehouse is een type databeheersysteem dat is ontworpen om business intelligence-activiteiten (BI), met name analytics, mogelijk te maken en te ondersteunen. Datawarehouses zijn uitsluitend bedoeld om query's en analyses uit te voeren en bevatten vaak grote hoeveelheden historische data. De data in een datawarehouse wordt meestal onttrokken aan een verscheidenheid aan bronnen, zoals logbestanden van applicaties en transactieapplicaties.

Een datawarehouse centraliseert en consolideert grote hoeveelheden data uit meerdere bronnen. De analytische mogelijkheden stellen organisaties in staat om waardevolle zakelijke inzichten uit hun data te halen om besluitvorming te verbeteren. In de loop der tijd wordt een historisch record opgebouwd dat van onschatbare waarde kan zijn voor datawetenschappers en bedrijfsanalisten. Vanwege deze mogelijkheden kan een datawarehouse worden beschouwd als de 'enige bron van waarheid' van een organisatie.


Video over datawarehouse

 

Een typisch datawarehouse omvat vaak de volgende elementen:

  • Een relationele database waarin data wordt opgeslagen en beheerd
  • Een ELT-oplossing (extractie, laden en transformatie) voor het voorbereiden van data voor analyse
  • Functies voor statistische analyse, rapportage en datamining
  • Analysetools voor klanten voor het visualiseren en presenteren van data aan zakelijke gebruikers
  • Andere meer geavanceerde analytische applicaties die bruikbare informatie opleveren door toepassing van algoritmes voor datawetenschap en kunstmatige intelligentie (AI), of ruimtelijke en grafiekfuncties die meer soorten gegevensanalyses op schaal mogelijk maken.

Organisaties kunnen ook een oplossing kiezen die transactieverwerking, realtime analyses in datawarehouses en data lakes, en machine learning in één MySQL Database service combineert - zonder de complexiteit, latentie en kosten, en zonder het risico dat extractie, transformatie en belasting (ETL) verdubbelen.

Voordelen van een datawarehouse

Datawarehouses bieden het overkoepelende en unieke voordeel dat organisaties grote hoeveelheden variant data kunnen analyseren en er aanzienlijke waarde uit kunnen halen, evenals een historische record kunnen behouden.

Vier unieke kenmerken (beschreven door computerwetenschapper William Inmon, die wordt beschouwd als de grondlegger van het datawarehouse) zorgen ervoor dat datawarehouses dit overkoepelende voordeel kunnen bieden. Volgens deze definitie zijn datawarehouses

  • Onderwerpgericht. Ze kunnen data analyseren over een bepaald onderwerp of een bepaald functioneel gebied (zoals verkooporganisatie).
  • Geïntegreerd. Datawarehouses zorgen voor consistentie tussen verschillende datatypen uit ongelijksoortige bronnen.
  • Niet-vluchtig. Zodra data in een datawarehouse is opgeslagen, is het stabiel en verandert het niet.
  • Tijdsafhankelijk. Datawarehouse-analyse kijkt naar veranderingen in de tijd.

Een goed ontworpen datawarehouse voert zeer snel query's uit, levert een hoge datadoorvoer en biedt eindgebruikers voldoende flexibiliteit voor 'slice-and-dice' of het beperken van het volume aan data voor nader onderzoek om aan verschillende eisen te voldoen - of dit nou op hoog niveau of op een zeer fijn, gedetailleerd niveau is. Het datawarehouse fungeert als de functionele basis voor middleware-BI-omgevingen, die eindgebruikers rapporten, dashboards en andere interfaces bieden.

Datawarehouse-architectuur

De architectuur van een datawarehouse wordt bepaald door de specifieke behoeften van de organisatie. Veel voorkomende architecturen zijn

  • Eenvoudig. Alle datawarehouses delen een basisontwerp waarin metagegevens, samenvattingsdata en onbewerkte data worden opgeslagen in de centrale opslagplaats van het warehouse. De opslagplaats wordt aan de ene kant gevoed door databronnen en aan de andere kant door eindgebruikers gebruikt voor analyse, rapportage en mining.
  • Eenvoudig met een verzamelplaats. Operationele data moet worden opgeschoond en verwerkt voordat deze in het warehouse wordt geplaatst. Hoewel dit programmatisch kan worden gedaan, voegen veel datawarehouses een verzamelgebied toe voor data voordat deze het warehouse binnengaat, om datavoorbereiding te vereenvoudigen.
  • Hub-and-spoke. Door datamarts tussen de centrale opslagplaats en eindgebruikers toe te voegen, kan een organisatie zijn datawarehouse aanpassen om verschillende bedrijfstakken te bedienen. Wanneer data klaar is voor gebruik, wordt deze verplaatst naar de juiste datamart.
  • Sandboxes. Sandboxes zijn afgezonderde, veilige gebieden waarmee bedrijven snel en informeel nieuwe datasets of manieren om data te analyseren kunnen verkennen zonder zich te moeten houden aan of te voldoen aan de formele regels en het protocol van het datawarehouse.

De evolutie van datawarehouses: van gegevensanalyse tot AI en machine learning

Toen datawarehouses hun opwachting maakten eind jaren 1980, hadden ze als doel om te helpen data uit operationele systemen over te brengen naar beslissingsondersteunende systemen (DSS). Deze vroege datawarehouses vereisten een enorme hoeveelheid redundantie. De meeste organisaties hadden meerdere DSS-omgevingen die hun verschillende gebruikers bedienden. Hoewel de DSS-omgevingen veel van dezelfde data gebruikten, werd het verzamelen, opschonen en integreren van data vaak gerepliceerd voor elke omgeving.

Toen datawarehouses efficiënter werden, evolueerden ze van informatieopslag die traditionele BI-platforms ondersteunden naar brede analytische infrastructuren die een breed scala aan applicaties ondersteunen, zoals operationele analytics en prestatiebeheer.

Datawarehouse-iteraties zijn in de loop van de tijd van steeds groter toegevoegde waarde geworden voor bedrijven met Enterprise Data Warehouse (EDW).

Stap Functie Zakelijke waarde
1 Transactionele rapportage Levert relationele informatie om snapshots van bedrijfsprestaties te maken
2 Slice-and-dice, ad hoc-query, BI-tools Breidt de mogelijkheden uit voor verregaandere inzichten en krachtigere analyse
3 Voorspellen van toekomstige prestaties (datamining) Ontwikkelt visualisaties en toekomstgerichte business intelligence
4 Tactische analyse (ruimtelijk, statistiek) Biedt 'what-if'-scenario's om praktische beslissingen te nemen op basis van een uitgebreidere analyse
5 Slaat vele maanden of jaren aan data op Slaat data slechts gedurende weken of maanden op

Om elk van deze vijf stappen te ondersteunen, was een toenemende verscheidenheid aan datasets nodig. Vooral de laatste drie stappen maken een nog breder scala aan data en analytische functies noodzakelijk.

Tegenwoordig transformeren AI en machine learning bijna elke bedrijfstak, service en elk bedrijfsmiddel. Datawarehouses vormen hierop geen uitzondering. De uitbreiding van big data en de toepassing van nieuwe digitale technologieën zorgen voor verandering in de vereisten en mogelijkheden voor datawarehouses.

Het autonome datawarehouse is de nieuwste stap in deze evolutie en biedt bedrijven de mogelijkheid nog meer waarde te halen uit hun data terwijl ze de kosten verlagen en de betrouwbaarheid en prestaties van datawarehouses verbeteren.

Lees meer over autonome datawarehouses en ga aan de slag met uw eigen autonome datawarehouse.

Datawarehouses, datamarts en operationele datastores

Hoewel ze vergelijkbare functies vervullen, verschillen datawarehouses van datamarts en operationele datastores (ODS). Een datamart vervult dezelfde functies als een datawarehouse, maar binnen een veel beperkter bereik, meestal één afdeling of branche. Hierdoor zijn datamarts gemakkelijker op te zetten dan datawarehouses. Bij datamarts ontstaan echter makkelijk inconsistenties, aangezien het lastig kan zijn om data op uniforme wijze te beheren en controleren binnen talloze datamarts.

ODS ondersteunen alleen dagelijkse bewerkingen, dus hun weergave van historische data is zeer beperkt. Hoewel ze heel goed werken als bronnen van actuele data en vaak als zodanig worden gebruikt door datawarehouses, ondersteunen ze geen historisch rijke query's.

Wat is een clouddatawarehouse?

Een clouddatawarehouse gebruikt de cloud om data uit verschillende databronnen op te nemen en op te slaan.

De oorspronkelijke datawarehouses werden gebouwd met on-premises servers. Deze on-premises datawarehouses hebben nog steeds veel voordelen. In veel gevallen kunnen ze beter beheer, betere beveiliging, gegevenssoevereiniteit en betere latentie bieden. On-premises datawarehouses zijn echter niet zo elastisch en vereisen complexe prognoses om te bepalen hoe het datawarehouse kan worden geschaald voor toekomstige behoeften. Het beheer van deze datawarehouses kan ook erg complex zijn.

Aan de andere kant zijn enkele van de voordelen van clouddatawarehouses:

De beste clouddatawarehouses zijn volledig beheerd en zelfsturend, zodat zelfs beginners met slechts een paar klikken een datawarehouse kunnen maken en gebruiken. Een eenvoudige manier om uw migratie naar een clouddatawarehouse te starten, is door uw on-premises clouddatawarehouse uit te voeren achter uw datacenterfirewall die voldoet aan de vereisten voor gegevenssoevereiniteit en beveiliging.

Bovendien volgen de meeste clouddatawarehouses een pay-as-you-go-model, wat extra kostenbesparingen oplevert voor klanten.

Wat is een modern datawarehouse?

Of ze nu deel uitmaken van IT, data engineering, business analytics of datawetenschapsteams, verschillende gebruikers in de organisatie hebben verschillende behoeften als het gaat om een datawarehouse.

Een moderne data-architectuur speelt in op die verschillende behoeften door een manier te bieden om alle datatypen, workloads en analyses te beheren. Het bestaat uit architectuurpatronen met de nodige componenten die zijn geïntegreerd om samen te werken in overeenstemming met de best practices uit de branche. Het moderne datawarehouse omvat:

  • Een geconvergeerde database die het beheer van alle datatypen vereenvoudigt en verschillende manieren biedt om data te gebruiken
  • Selfservice-diensten voor dataopname en -transformatie
  • Ondersteuning voor SQL, machine learning, graph and spatial-verwerking
  • Meerdere analytics-opties die het gemakkelijk maken om data te gebruiken zonder deze te verplaatsen
  • Geautomatiseerd beheer voor eenvoudige inrichting, schaling en beheer

Een modern datawarehouse kan dataworkflows efficiënt stroomlijnen op een manier die andere warehouses niet kunnen bieden. Dit betekent dat iedereen, van analisten en data engineers tot datawetenschappers en IT-teams, zijn werk effectiever kan uitvoeren en het innovatieve werk kan voortzetten dat de organisatie vooruit helpt, zonder talloze vertragingen en complexiteit.

Een datawarehouse ontwerpen

Wanneer een organisatie een datawarehouse gaat ontwerpen, moeten ze beginnen met het bepalen van de specifieke bedrijfsvereisten, overeenstemming bereiken over de reikwijdte en een conceptueel ontwerp opstellen. De organisatie kan vervolgens zowel het logische als het fysieke ontwerp voor het datawarehouse maken. Het logische ontwerp omvat de relaties tussen de objecten en het fysieke ontwerp omvat de beste manier om de objecten op te slaan en op te halen. Het fysieke ontwerp omvat ook transport-, back-up- en herstelprocessen.

In elk datawarehouse-ontwerp moet het volgende zijn opgenomen:

  • Specifieke datainhoud
  • Relaties binnen en tussen groepen data
  • De systeemomgeving die het datawarehouse zal ondersteunen
  • De typen datatransformaties die nodig zijn
  • De frequentie voor datavernieuwing

Een primaire factor in het ontwerp is de behoefte van de eindgebruikers. De meeste eindgebruikers willen analyses uitvoeren en data als geheel bekijken, in plaats van als afzonderlijke transacties. Vaak weten eindgebruikers echter pas echt wat ze willen wanneer er een specifieke behoefte ontstaat. Het planningsproces moet dus voldoende verkennend zijn om te anticiperen op behoeften. Tot slot moet het datawarehouse-ontwerp ruimte laten voor uitbreiding en evolutie om gelijke tred te kunnen houden met de zich ontwikkelende behoeften van eindgebruikers.

De Cloud en het datawarehouse

Datawarehouses in de cloud bieden dezelfde kenmerken en voordelen als on-premises datawarehouses, maar met de extra voordelen van cloud-computing, zoals flexibiliteit, schaalbaarheid, beveiliging en lagere kosten. Datawarehouses in de cloud stellen bedrijven in staat zich uitsluitend te richten op het onttrekken van waarde aan hun data zonder de hardware- en software-infrastructuur te moeten bouwen en beheren die nodig is om het datawarehouse te ondersteunen.

Heb ik een data lake nodig?

Organisaties gebruiken zowel data lakes als datawarehouses voor grote volumes data uit verschillende bronnen. De keuze voor het een of het ander is afhankelijk van wat de organisatie met de data wil doen. Hieronder wordt beschreven hoe elk het best kan worden gebruikt:

  • Data lakes bieden opslag aan een overvloed aan ongelijksoortige, ongefilterde data om later voor een bepaald doel te gebruiken. Data van brancheapplicaties, mobiele apps, sociale media, IoT-apparaten en meer worden als onbewerkte data vastgelegd in een data lake. De structuur, integriteit, selectie en indeling van de verschillende datasets wordt afgeleid op het moment van analyse door degene die de analyse uitvoert. Wanneer organisaties goedkope opslag nodig hebben voor ongeformatteerde, ongestructureerde data uit meerdere bronnen die ze in de toekomst voor een of ander doel willen gebruiken, kan een data lake de juiste keuze zijn.
  • Datawarehouses zijn specifiek bedoeld voor het analyseren van data. Analytische verwerking binnen een datawarehouse wordt uitgevoerd op data dat gereed is gemaakt voor analyse (verzameld, gecontextualiseerd en getransformeerd) met het doel op analyses gebaseerde inzichten te genereren. Datawarehouses zijn ook bedreven in het verwerken van grote hoeveelheden data uit verschillende bronnen. Wanneer organisaties geavanceerde data-analytics of -analyse nodig hebben op basis van historische data uit meerdere bronnen binnen hun bedrijf, is een datawarehouse waarschijnlijk de juiste keuze.

Waarom geen analytics uitvoeren op uw OLTP-omgeving?

Datawarehouses zijn relationele omgevingen die worden gebruikt voor data-analyse, met name van historische data. Organisaties gebruiken datawarehouses voor het ontdekken van patronen en relaties in hun data die zich in de loop der tijd ontwikkelen.

Transactionele omgevingen daarentegen worden gebruikt om transacties doorlopend te verwerken en worden vaak gebruikt voor orderinvoer en financiële en retailtransacties. Ze zijn niet gebaseerd op historische data. In OLTP-omgevingen worden historische data zelfs vaak gearchiveerd of gewoonweg verwijderd om de prestaties te verbeteren.

Datawarehouses en OLTP-systemen verschillen aanzienlijk.

Datawarehouse OLTP-systeem
Workload Geschikt voor ad hoc-query's en data-analyse Ondersteunt alleen vooraf gedefinieerde bewerkingen
Datawijzigingen Wordt regelmatig bijgewerkt Wordt bijgewerkt door eindgebruikers die individuele verklaringen afgeven
Schemaontwerp Gebruikt gedeeltelijk gedenormaliseerde schema's om de prestaties te optimaliseren Gebruikt volledig genormaliseerde schema's om de consistentie van data te waarborgen
Scannen van data Omvat duizenden tot miljoenen rijen Bereikt slechts een handvol records per keer
Historische data Slaat vele maanden of jaren aan data op Slaat data slechts gedurende weken of maanden op

Zero-complexity implementatie: Autonomous Data Warehouse

De meest recente iteratie van het datawarehouse is het autonome datawarehouse, dat vertrouwt op AI en machine learning om handmatige taken te elimineren en installatie, implementatie en databeheer te vereenvoudigen. Voor een as-a-service autonoom datawarehouse in de cloud is geen door de mens uitgevoerd databasebeheer, hardwareconfiguratie of -beheer of software-installatie nodig.

Het opzetten van het datawarehouse, het maken van een back-up, patchen en upgraden van de database en het vergroten of verkleinen van de database worden allemaal automatisch uitgevoerd, met dezelfde flexibiliteit, schaalbaarheid, wendbaarheid en lagere kosten die door cloudplatforms wordt geboden. Het autonome datawarehouse rekent af met complexiteit, versnelt de implementatie en maakt middelen vrij, zodat organisaties zich kunnen richten op activiteiten die waarde toevoegen aan het bedrijf.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse is een eenvoudig te gebruiken, volledig autonoom datawarehouse dat flexibel schaalt, snelle queryprestaties levert en geen databasebeheer vereist. Oracle Autonomous Data Warehouse is heel eenvoudig en snel in te stellen.

Waarom Oracle Autonomous Data Warehouse verkiezen boven Snowflake

  • Automatisering. Het enige datawarehouse dat databasebeheer volledig automatiseert.
  • Gebruiksgemak. De Autonomous Data Warehouse oplossing is eenvoudiger te implementeren en beheren met ingebouwde mogelijkheden waardoor aanvullende zelfstandige services overbodig zijn.
  • Kosten van oplossing. Ons moderne datawarehouse en verbeterde functies hebben vergelijkbare kosten tegen dezelfde workloadvereisten.
  • Gegevensbeveiliging. We bieden sterkere ingebouwde beveiligingsprotocollen waarmee uw data worden beschermd tegen cyberdreigingen.
  • Datagovernance. Met ons datawarehouseplatform is naadloos beheer mogelijk in overeenstemming met behoeften op het gebied van datasoevereiniteit.
Oracle-chatbot
Disconnected