Wat is ETL?

ETL (Extract Transform Load) is het proces dat datagestuurde organisaties gebruiken voor het verzamelen en samenvoegen van data uit meerdere bronnen voor het ondersteunen van detectie, rapportage, analyses en besluitvorming.

De databronnen kunnen zeer uiteenlopend zijn wat betreft soort, indeling, volume en betrouwbaarheid. De data moeten dus worden verwerkt tot nuttige data wanneer ze worden samengevoegd. De doelopslagplaatsen kunnen databases, datawarehouses of data lakes zijn, afhankelijk van het doel en de technische implementatie.

De drie stappen van ETL

Extraheren
Tijdens het extraheren worden de data door ETL geïdentificeerd en gekopieerd uit de bronnen, zodat de data naar de doelopslagplaats kunnen worden overgebracht. De data kunnen afkomstig zijn uit gestructureerde en ongestructureerde bronnen, zoals documenten, e-mails, bedrijfsapplicaties, databases, apparatuur, sensoren, externe partijen, enzovoort.

Transformeren
Omdat de geëxtraheerde data in de oorspronkelijke vorm onbewerkt zijn, moet de data worden toegewezen en getransformeerd om ze voor te bereiden voor de uiteindelijke opslagplaats. Tijdens het transformatieproces worden de data zodanig door ETL gevalideerd, geverifieerd, ontdubbeld en/of geaggregeerd dat de resulterende data betrouwbaar en doorzoekbaar zijn.

Laden
De getransformeerde data worden door ETL verplaatst naar de doelopslagplaats. Tijdens deze stap kunnen alle brondata initieel worden geladen, of kunnen incrementele wijzigingen in de brondata worden geladen. U kunt de data in realtime of in geplande batches laden.

ELT of ETL? Wat is het verschil?

De transformatiestap is de meest complexe stap in het ETL-proces. ETL en ELT verschillen daarom op twee belangrijke punten:

  • Wanneer de transformatie plaatsvindt
  • De locatie van de transformatie

In een traditioneel datawarehouse worden data eerst geëxtraheerd uit 'bronsystemen' (ERP-systemen, CRM-systemen, enzovoort). OLAP-tools en SQL-query's zijn afhankelijk van het standaardiseren van de dimensies van datasets om geaggregeerde resultaten te verkrijgen. Dit betekent dat de data een reeks transformaties moeten ondergaan.

Van oudsher zijn deze transformaties al uitgevoerd voordat de data in het doelsysteem, meestal een relationeel datawarehouse, worden geladen.

Nu de onderliggende technologieën voor opslag en verwerking van data als basis voor datawarehousing zich steeds verder ontwikkelen, is het mogelijk om transformaties binnen het doelsysteem uit te voeren. Bij zowel ETL- als ELT-processen worden opslaggebieden gebruikt. In ETL bevinden deze gebieden zich in de tool. Het maakt hierbij niet uit of het om een bedrijfseigen tool of een aangepast tool gaat. De gebieden bevinden zich tussen het bronsysteem (bijvoorbeeld een CRM-systeem) en het doelsysteem (het datawarehouse).

Bij ELT's bevinden de opslaggebieden zich echter in het datawarehouse en worden de transformaties uitgevoerd door de database-engine van het DBMS in plaats van door een ETL-tool. Daarom is een van de directe gevolgen van ELT's het verlies van functies voor datavoorbereiding en -opschoning die door ETL-tools worden gebruikt bij het datatransformatieproces.

ETL en datawarehouses voor ondernemingen

Van oudsher werden tools voor ETL voornamelijk gebruikt voor het leveren van data aan datawarehouses voor ondernemingen ter ondersteuning van BI-applicaties. Dergelijke datawarehouses zijn ontworpen als betrouwbare centrale databron voor alle activiteiten binnen een onderneming. De data in deze warehouses zijn zorgvuldig gestructureerd met strikte schema's, metagegevens en regels voor datavalidatie.

De ETL-tools voor datawarehouses voor ondernemingen moeten voldoen aan vereisten voor data-integratie, zoals grote hoeveelheden high-performance batchlaadprocessen, eventgestuurde integratieprocessen met druppelfeed, programmeerbare transformaties, en orkestraties. Met deze tools kunnen de meest veeleisende transformaties en workflows worden uitgevoerd en beschikt u over connectoren voor de meest uiteenlopende databronnen.

Nadat de data zijn geladen, zijn er meerdere strategieën om ze gesynchroniseerd te houden tussen de bron- en doelopslagplaatsen. U kunt de volledige dataset periodiek opnieuw laden, regelmatige updates van de nieuwste data plannen en de bron- en doeldatawarehouses synchroon houden. Deze realtime integratie wordt CDC (Change Data Capture) genoemd. Voor dit geavanceerde proces moeten de ETL-tools de transactiesemantiek van de brondatabases begrijpen en deze transacties correct naar het doeldatawarehouse versturen.

ETL en datamarts

Datamarts zijn kleinere en meer gerichte doelopslagplaatsen dan datawarehouses voor ondernemingen. Datamarts kunnen bijvoorbeeld gericht zijn op informatie over één afdeling of één productlijn. De gebruikers van ETL-tools voor datamarts zijn dus veelal line-of-business (LOB) specialisten, data-analisten en/of datawetenschappers.

ETL-tools voor datamarts moeten kunnen worden gebruikt door gewone medewerkers en databeheerders en niet alleen door programmeurs en de IT-afdeling. Om deze reden moeten deze tools een visuele workflow hebben waarmee ETL-pijplijnen eenvoudig kunnen worden ingesteld.

Meer informatie over het ontwerpen van dataflows zonder code.

ETL of ELT en data lakes

Data lakes volgen een ander patroon dan datawarehouses en datamarts. Data in data lakes worden doorgaans opgeslagen in een objectopslag of HDFS (Hadoop Distributed File System). Om deze reden kunnen data lakes data met minder structuur en zonder schema bevatten en ondersteunen ze diverse tools voor het doorzoeken van deze ongestructureerde data.

Dit maakt ook het gebruik van het ELT-patroon mogelijk waarbij data worden geëxtraheerd, geladen en getransformeerd. Data worden eerst ongewijzigd opgeslagen en pas getransformeerd, geanalyseerd en verwerkt nadat de ze zijn geregistreerd in het data lake. Dit patroon biedt verschillende voordelen.

  • Alle data worden opgenomen en er gaan geen signalen verloren door aggregatie of filtering.
  • Data kunnen zeer snel worden ingevoerd. Dit is handig voor streaming, loganalyse en websitestatistieken van Internet of Things (IoT).
  • Het biedt detectie van trends die niet werden verwacht op het moment van registratie.
  • Het biedt implementatie van nieuwe technieken op het gebied van kunstmatige intelligentie (AI) die uitblinken bij het detecteren van patronen in grote, ongestructureerde datasets.

ETL-tools voor data lakes omvatten tools voor visuele data-integratie, omdat deze zeer effectief zijn voor datawetenschappers en data-engineers. Ook de onderstaande tools worden vaak in een date lake-architectuur gebruikt:

  • Cloudstreamingservices waarmee grote stromen realtime data kunnen ingevoerd in data lakes voor berichtverzending, applicatielogs, operationele telemetrie, het bijhouden van webklikdata, eventverwerking en beveiligingsanalyses. Dankzij compatibiliteit met Kafka kunnen deze services data ophalen uit databronnen met bijna onbeperkte capaciteit.
  • Op Spark gebaseerde cloudservices die snel zeer grote datasets kunnen verwerken en transformeren. Spark-services laden de datasets uit de objectopslag of het HDFS, verwerken ze in het geheugen en transformeren ze naar schaalbare clusters van compute-instances. De uitvoer wordt vervolgens teruggeschreven naar het data lake of naar datamarts en/of datawarehouses.

Gebruiksscenario's voor ETL

Het ETL-proces is essentieel voor veel branches omdat data hiermee snel en betrouwbaar kunnen worden opgenomen in data lakes voor data science en analyse en voor het maken van hoogwaardige modellen. ETL-oplossingen kunnen transactionele data ook op schaal laden en transformeren en zo een georganiseerde weergave op basis van grote datavolumes maken. Hierdoor kunnen bedrijven trends in hun branche visualiseren en voorspellen. Er zijn diverse branches die op ETL vertrouwen voor bruikbare inzichten, snelle besluitvorming en grotere efficiëntie.

Financiële dienstverlening
Financiële instellingen verzamelen grote hoeveelheden gestructureerde en ongestructureerde data om het gedrag van consumenten te doorgronden. Deze inzichten kunnen worden gebruikt voor het analyseren van risico's, het optimaliseren van de financiële dienstverlening van banken, het verbeteren van online platforms en het zelfs het bevoorraden van geldautomaten.

Olie en gas
In de olie- en gasindustrie worden ETL-oplossingen gebruikt om voorspellingen te genereren over het gebruik, de opslag en trends in specifieke geografische gebieden. Met behulp van ETL wordt zoveel mogelijk informatie verzameld van alle sensoren op een extractielocatie. Deze informatie wordt vervolgens verwerkt en leesbaar gemaakt.

Automobielindustrie
Met ETL-oplossingen kunnen dealers en fabrikanten inzicht krijgen in verkooppatronen, hun marketingcampagnes kalibreren, voorraad aanvullen en leads van klanten opvolgen.

Telecommunicatie
Nu er tegenwoordig een ongekend grote hoeveelheid en verscheidenheid aan data wordt geproduceerd, vertrouwen telecommunicatieproviders op ETL-oplossingen om deze data beter te beheren en te begrijpen. Zodra deze data zijn verwerkt en geanalyseerd, kunnen bedrijven ze gebruiken om advertenties, sociale media, SEO, klanttevredenheid, winstgevendheid en meer te verbeteren.

Gezondheidszorg
Zorginstellingen zijn genoodzaakt om kosten te verlagen en tegelijkertijd de zorg te verbeteren en maken daarom gebruik van ETL-oplossingen om patiëntendossiers te beheren, verzekeringsdata te verzamelen en aan veranderende wettelijke vereisten te voldoen.

Biowetenschappen
Klinische laboratoria vertrouwen op ETL-oplossingen en kunstmatige intelligentie (AI) om verschillende soorten data te verwerken die door onderzoeksinstellingen worden geproduceerd. Voor het samenwerken aan de ontwikkeling van vaccins zijn bijvoorbeeld enorme hoeveelheden data vereist die moeten worden verzameld, verwerkt en geanalyseerd.

Overheidssector
Nu de mogelijkheden van het Internet of Things (IoT) steeds groter worden, profiteren slimme steden van ETL en de kracht van AI om het verkeer te optimaliseren, de waterkwaliteit te bewaken, de parkeersituatie te verbeteren en meer.

ETL-producten en -oplossingen

Service Oriented Architecture (SOA) Suite
Hoe kunt u de complexiteit van applicatie-integratie verminderen? Dankzij vereenvoudigde integratiemogelijkheden voor de cloud, mobiel, on-premises en IoT, en dat allemaal op één platform, kan deze oplossing integratie versnellen, de productiviteit verhogen en de totale eigendomskosten verlagen. Veel bedrijfsapplicaties, waaronder Oracle E-Business Suite, maken gebruik van dit product sterk om datastromen te orkestreren.

GoldenGate
Voor digitale transformatie moeten data vaak worden verplaatst vanaf de registratielocatie. GoldenGate is ontworpen om dit proces te vereenvoudigen. Oracle GoldenGate is een oplossing voor snelle datareplicatie en realtime integratie tussen heterogene databases die zich on-premises, in de cloud of in een autonome database bevinden. Met GoldenGate wordt de beschikbaarheid van data verbeterd zonder de systeemprestaties te beïnvloeden. Dit maakt realtime toegang tot data en operationele rapportage mogelijk.

Cloudstreaming
Onze cloudstreamingservice is een volledig beheerde, schaalbare en duurzame oplossing voor realtime invoer en gebruik van grote hoeveelheden datastromen. Gebruik deze service voor berichtverzending, applicatielogs, operationele telemetriegegevens, webklikdata of een andere situatie waarin data continu en opeenvolgend worden geproduceerd en verwerkt in een berichtenmodel voor publicatie/abonneren. Deze service is volledig compatibel met Spark en Kafka.