De definitie is simpel: een data lake is een locatie waar u uw gestructureerde en ongestructureerde data kunt opslaan en een methode voor het organiseren van grote volumes sterk uiteenlopende data uit verschillende bronnen.
Data lakes worden steeds belangrijker omdat mensen, met name in bedrijven en technologie, big data willen verkennen en ontdekken. Het samenbrengen van data op één locatie maakt dat een stuk eenvoudiger.
Afhankelijk van uw platform kan het data lake alles veel eenvoudiger maken. Een data lake is geschikt voor veel verschillende datastructuren, bijvoorbeeld ongestructureerde en multigestructureerde data, en kan u helpen optimaal van uw data te profiteren.
Het belangrijkste verschil tussen een data lake en een datawarehouse is dat in een data lake zeer snel data kunnen worden ingevoerd die pas worden voorbereid wanneer een gebruiker ze nodig heeft. Met een datawarehouse worden de data echter zeer zorgvuldig voorbereid voordat ze in het datawarehouse worden opgeslagen.
Gebruikers hebben de neiging om zo snel mogelijk data in te voeren in het data lake. Hierdoor beschikken bedrijven met operationele gebruiksscenario's, met name voor operationele rapportage, analyse en procesbewaking, over de nieuwste data. Zo hebben ze toegang tot de nieuwste data en zien ze de meest actuele informatie.
Gebruikers slaan data vaak in de oorspronkelijke vorm op in het data lake zonder de data te wijzigen. Dit kan vanwege tijdgebrek zijn, maar er kunnen ook andere redenen zijn, zoals de wens om geavanceerde analyses uit te voeren die afhankelijk zijn van gedetailleerde brongegevens. Deze analyses zijn gebaseerd op een soort mining, bijvoorbeeld:
Om alle voordelen van data lakes te kunnen bieden, moet u met een goede oplossing het volgende kunnen doen:
Een data lake is nuttiger als het deel uitmaakt van een groter databeheerplatform en moet voor een krachtiger data lake goed worden geïntegreerd met bestaande data en tools.
Bij omnichannelmarketing, ook wel multichannelmarketing genoemd, wordt het data lake gebruikt om het datawarehouse uit te breiden. Het data-ecosysteem in marketing houdt in dat elk kanaal zijn eigen database kan zijn, en elk contactpunt ook. En veel marketeers kopen daarnaast ook data van derden.
Stel dat een marketeer data wil kopen met aanvullende demografische informatie en consumentenvoorkeuren van klanten en potentiële klanten. Aan de hand van deze data krijgt de marketeer een volledig beeld van elke klant en kunnen meer gepersonaliseerde en gerichte marketingcampagnes worden gecreëerd.
Het resultaat is een complex data-ecosysteem dat steeds groter en complexer wordt. In deze situatie wordt vaak een data lake gebruikt om inkomende data van meerdere kanalen en contactpunten vast te leggen. En sommige data zijn in feite streamingdata.
Bedrijven die een smartphone-app aanbieden aan hun klanten, kunnen deze data in realtime of bijna in realtime ontvangen omdat klanten die app gebruiken. Vaak heeft het bedrijf de data niet eens in realtime nodig. De data kunnen gerust een uur of twee oud zijn. Maar op basis van deze data kan de marketingafdeling alles nauwgezet volgen en speciale aanbiedingen, kortingen en microcampagnes maken.
De digitale supply chain is een net zo diverse data-omgeving. Het data lake kan hiermee helpen, vooral als het data lake op een Hadoop-platform staat. Hadoop is grotendeels een op bestanden gebaseerd systeem omdat het oorspronkelijk is ontworpen voor zeer grote en zeer talrijke logbestanden die afkomstig zijn van webservers. In de supply chain is er vaak sprake van een grote hoeveelheid op bestanden gebaseerde data. Denk bijvoorbeeld aan op bestanden en documenten gebaseerde data uit EDI-systemen, XML en natuurlijk JSON's die zeer sterk vertegenwoordigd zijn in de digitale supply chain. Dat is heel diverse informatie.
Ook moet er rekening worden gehouden met interne data. Fabrikanten ontvangen vaak data van de werkvloer en informatie over verzendingen en facturatie die zeer relevant zijn voor de supply chain. Een data lake kan fabrikanten helpen om deze data samen te brengen en te beheren op bestandsbasis.
In sommige bedrijven worden dagelijks nieuwe databronnen gemaakt door het Internet of Things. En omdat deze bronnen diversifiëren, creëren ze uiteraard nog meer data. Er worden steeds meer sensoren gebruikt op machines. Elk voertuig voor goederenvervoer per spoor of de weg is uitgerust met enorm veel sensoren zodat het bedrijf dat voertuig altijd en overal kan volgen en controleren. Wordt het voertuig veilig gebruikt? Wordt het zo optimaal mogelijk gebruikt om brandstof te besparen? Het bedrijf ontvangt enorme hoeveelheden data en het data lake is een veelgebruikte opslagplaats voor al deze data.
Dit zijn voorbeelden van doelgerichte toepassingen van het data lake op bepaalde afdelingen of in IT-programma's. Een andere benadering is het bieden van één groot data lake met meerdere tenants voor gecentraliseerde IT. Het data lake kan door veel verschillende afdelingen, business units en technologieprogramma's worden gebruikt. Wanneer mensen steeds meer gewend raken aan het data lake, ontdekken ze hoe ze het data lake kunnen optimaliseren voor verschillende toepassingen en activiteiten, analyses en zelfs naleving.
Het data lake kan op veel verschillende manieren worden gebruikt en kan ook veel platforms bevatten. Hadoop is het meest bekende platform maar zeker niet het enige.
Hadoop is aantrekkelijk. Het is bewezen lineair schaalbaar. En de kosten voor omhoog en omlaag schalen zijn lager dan bij bijvoorbeeld een relationele database. Maar Hadoop is niet alleen goedkope opslag. Het is ook een krachtig verwerkingsplatform. En voor degenen die algoritmische analyses willen maken, kan Hadoop zeer handig zijn.
Een relationeel databasebeheersysteem (RDBMS) kan ook een platform voor het data lake zijn omdat sommige mensen over enorme hoeveelheden gestructureerde en ook relationele data beschikken die ze aan het data lake willen toevoegen. Als uw data dus inherent relationeel zijn, zou een DBMS-aanpak voor het data lake heel zinvol zijn. Ook als u gebruiksscenario's hebt waarin u relationele functionaliteit wilt gebruiken, zoals SQL of complexe tabeljoins, is een RDBMS zeer nuttig.
Tegenwoordig kiezen bedrijven veel voor cloudsystemen, en dan met name cloudopslag. Het grote voordeel van de cloud is flexibele schaalbaarheid. Ze kunnen serverresources en andere resources ordenen terwijl workloads worden opgeschaald. En vergeleken met veel on-premises systemen kan de cloud goedkoop zijn. Dat komt onder andere doordat er geen systeemintegratie is.
Als u iets on-premises wilt doen, moet u of iemand anders een systeemintegratie van meerdere maanden uitvoeren, terwijl er voor veel systemen al een cloudprovider is die dit heeft geïntegreerd. U koopt in principe een licentie en u kunt binnen enkele uren in plaats van maanden aan de slag. Daarnaast kent de benadering met objectopslagplaatsen in de cloud, waarover we het in een eerder blog over best practices voor data lakes hebben gehad, veel voordelen.
En natuurlijk is een hybride mix van platforms met een data lake mogelijk. Als u bekend bent met de term logisch datawarehouse, kunt u in de cloud ook zoiets hebben. Dit wordt dan een logisch data lake genoemd. Hier worden data fysiek over meerdere platforms verdeeld. En dat brengt enkele uitdagingen met zich mee, zoals het gebruik van speciale tools voor federatieve query's of datavirtualisatie voor verreikende analytische query's.
Deze technologie is echter beschikbaar in de vorm van tools en wordt door veel mensen gebruikt.
Bij de zoektocht om meer waarde uit hun data te halen, blijven bedrijven de grenzen verleggen. Dankzij cloudcomputing kunnen bedrijven tegenwoordig data lake-technologieën en datawarehouses combineren in één architectuur die ook wel een 'data lakehouse' wordt genoemd. De voordelen van een data lakehouse zijn onder meer betere integratie, minder dataverplaatsing, beter databeheer en ondersteuning voor meer gebruiksscenario's.
Het data lake is uw antwoord op het organiseren van die enorme hoeveelheden uiteenlopende data uit verschillende bronnen. En als u klaar bent om een data lake te implementeren, kunt u hiervoor Oracle Free Tier gebruiken.