Unter Extrahieren, Transformieren und Laden (ETL) versteht man den Prozess, den datengesteuerte Unternehmen verwenden, um Daten aus verschiedenen Quellen zu erfassen und dann zusammenzuführen, um Erkennungen, Berichterstellung, Analysen und die Entscheidungsfindung zu unterstützen.
Die Datenquellen können sich dabei sehr nach ihrer Art, ihrem Format, ihrem Volumen und ihrer Zuverlässigkeit unterscheiden. Deswegen müssen sie verarbeitet werden, um sie bei der Zusammenführung nutzbar zu machen. Bei den Zieldatenspeichern kann es sich um Datenbanken, Data Warehouses oder Data Lakes handeln, je nach den Zielen oder der technischen Implementierung.
Extrahieren
Während des Extrahierens identifiziert ETL die Daten und kopiert sie aus ihrer Quelle, sodass sie zum Zieldatenspeicher übertragen werden können. Die Daten können aus strukturierten und unstrukturierten Quellen stammen, einschließlich Dokumenten, E-Mails, Geschäftsanwendungen, Datenbanken, Geräten, Sensoren, Dritten und mehr.
Transformieren
Da die extrahierten Daten in ihrem Originalzustand noch roh sind, müssen sie zugeordnet und transformiert werden, um sie für die schließliche Datenspeicherung vorzubereiten. Während des Transformationsprozesses validiert, authentifiziert, dedupliziert und/oder aggregiert ETL die Daten so, dass die sich daraus ergebenden Daten verlässlich und abfragbar sind.
Laden
ETL verschiebt die transformierten Daten in den Zieldatenspeicher. Dieser Schritt kann das erstmalige Laden aller Quelldaten beinhalten oder nur das Laden inkrementeller Änderungen bei den Quelldaten umfassen. Sie können die Daten in Echtzeit oder in geplanten Stapeln laden.
Der Transformationsschritt ist bei Weitem der komplexeste im ETL-Prozess. ETL und ELT unterscheiden sich daher in zwei wesentlichen Punkten:
In einem traditionellen Data Warehouse werden Daten zunächst aus „Quellsystemen“ (ERP-Systeme, CRM-Systeme usw.) extrahiert. OLAP-Tools und SQL-Abfragen hängen davon ab, dass die Dimensionen der Datensätze standardisiert werden, um aggregierte Ergebnisse zu erhalten. Das bedeutet, dass die Daten einer Reihe von Transformationen unterzogen werden müssen.
Traditionell wurden diese Transformationen durchgeführt, bevor die Daten in das Zielsystem geladen wurden, bei dem es sich in der Regel um ein relationales Data Warehouse handelte.
Aber aufgrund der Weiterentwicklung der einem Data Warehouse zugrunde liegenden Datenspeicherungs- und -verarbeitungstechnologien, ist es nun möglich, Transformationen innerhalb des Zielsystems durchzuführen. Sowohl ETL- als auch ELT-Prozesse beinhalten Bereitstellungsbereiche. Bei ETL befinden sich diese Bereiche innerhalb des Tools, unabhängig davon, ob es nun proprietär oder benutzerdefiniert ist. Sie befinden sich also zwischen dem Quellsystem (zum Beispiel einem CRM-System) und dem Zielsystem (dem Data Warehouse).
Im Gegensatz zu einem ETL-Tool befindet sich bei ELTs der Bereitstellungsbereich im Data Warehouse und die Datenbank-Engine, welche das DBMS ausführt, führt auch die Transformationen aus. Ein unmittelbarer Unterschied von ELTs ist also, dass sie nicht über die Datenvorbereitungs- und -bereinigungsfunktionen verfügen, die ETL-Tools beim Datentransformationsprozess bereitstellen.
Traditionell wurden Tools für ETL hauptsächlich dazu verwendet, Daten an Unternehmens-Data Warehouses zur Unterstützung von Business Intelligence (BI)-Anwendungen zu übertragen. Derartige Data Warehouses sind so ausgelegt, dass sie eine verlässliche Informationsquelle zu allen Vorgängen und Aktivitäten im Unternehmen darstellen. Die Daten in diesen Warehouses sind sorgfältig mithilfe von strengen Schemata, Metadaten und Regeln für die Datenvalidierung strukturiert worden.
Die ETL-Tools für Unternehmens-Data Warehouses müssen die Anforderungen an die Datenintegration erfüllen. Zu diesen gehören beispielsweise großvolumige, leistungsstarke Batch-Ladevorgänge, ereignisgesteuerte Integrationsprozesse, programmierbare Transformationen und Orchestrierungen. Dadurch wird sichergestellt, dass sie die anspruchsvollsten Transformationen und Workflows bewältigen können und über Connectors für die verschiedenartigsten Datenquellen verfügen.
Nach dem Laden der Daten stehen Ihnen mehrere Strategien zur Verfügung, um sie zwischen dem Quell- und dem Zieldatenspeicher zu synchronisieren. Sie können den vollständigen Datensatz regelmäßig neu laden, periodische Updates der neuesten Daten planen oder festlegen, dass Sie eine vollständige Synchronität zwischen den Quelldaten und den Zieldaten des Data Warehouse beibehalten wollen. Eine derartige Integration in Echtzeit wird als Change Data Capture (CDC) bezeichnet. Für diesen erweiterten Prozess müssen die ETL-Tools die Transaktionssemantik der Quelldatenbanken verstehen und diese Transaktionen korrekt an das Ziel-Data Warehouse übertragen.
Data Marts sind kleinere und fokussiertere Zieldatenspeicher als Unternehmens-Data Warehouses. Sie können zum Beispiel auf Informationen zu einer einzelnen Abteilung oder Produktlinie fokussiert sein. Deswegen sind die Anwender von ETL-Tools für Data Marts oft Experten für einen bestimmten Geschäftsbereich, Datenanalysten und/oder Data Scientists.
ETL-Tools für Data Marts müssen in erster Linie von geschäftlichen Mitarbeitern und Datenmanagern genutzt werden können und nicht nur von Programmierern und IT-Mitarbeitern. Daher sollten diese Tools über einen visuellen Workflow verfügen, um die Einrichtung von ETL-Pipelines zu vereinfachen.
Mehr zum Datenflussdesign ohne Programmieraufwand erfahren
Data Lakes basieren auf einem anderen Ansatz als Data Warehouses und Data Marts. Data Lakes speichern ihre Daten im Allgemeinen im Objektspeicher oder Hadoop Distributed File Systems (HDFS). Deswegen können sie weniger strukturierte Daten ohne Schema speichern. Dabei unterstützen sie verschiedene Tools für die Abfrage dieser unstrukturierten Daten.
Ein zusätzlicher Ansatz, der dadurch möglich wird, ist Extrahieren, Laden und Transformieren(ELT), bei dem Daten erst im Ist-Zustand gespeichert und dann, nach der Erfassung im Data Lake, transformiert, analysiert und verarbeitet werden. Ein derartiges Verarbeitungsmuster bietet mehrere Vorteile.
ETL-Tools für Data Lakes beinhalten Tools für die visuelle Datenintegration, die sehr effektiv die Arbeit von Data Scientists und Data Engineers unterstützen können. Zu den weiteren Tools, die oft bei einer Data Lake-Architektur verwendet werden, gehören:
Der ETL-Prozess ist für viele Branchen von wesentlicher Bedeutung, da er Daten schnell und zuverlässig in Data Lakes für Data Science-Anwendungn und Analysen aufnehmen und gleichzeitig dazu hochwertige Modelle erstellen kann. ETL-Lösungen können Transaktionsdaten auch skalierbar laden und transformieren, um eine organisierte Ansicht großer Datenmengen zu erstellen. Dadurch können Unternehmen Branchentrends visualisieren und prognostizieren. Mehrere Branchen nutzen ETL, um aktionsunterstützende Erkenntnisse zu gewinnen, eine schnelle Entscheidungsfindung zu ermöglichen oder um die Effizienz zu verbessern.
Finanzdienstleistungen
Finanzdienstleistungsinstitute erfassen große Mengen an strukturierten und unstrukturierten Daten, um Erkenntnisse über das Verbraucherverhalten zu gewinnen. Mithilfe dieser Erkenntnisse können Risiken analysiert, die Finanzdienstleistungen von Banken optimiert, Online-Plattformen verbessert und sogar Geldautomaten mit Bargeld versorgt werden
Öl- und Gasindustrie
Die Öl- und Gasindustrie nutzt ETL-Lösungen für die Prognose im Hinblick auf den Verbrauch, die Lagerung und Trends in bestimmten geografischen Regionen. ETL erfasst von den verschiedenen Sensoren an der Förderstelle so viele Informationen wie möglich und bereitet sie in einer leicht lesbaren Form auf.
Automobilbranche
ETL-Lösungen ermöglichen es Händlern und Herstellern, Verkaufsmuster besser zu verstehen, ihre Marketingkampagnen zu kalibrieren, ihre Bestände aufzufüllen und bei Kunden-Leads nachzufassen.
Telekommunikation
Die Menge und Vielfalt der heutzutage produzierten Daten ist beispiellos. Deswegen verlassen sich Telekommunikationsanbieter auf ETL-Lösungen, um diese Daten besser verwalten und verstehen zu können. Nachdem diese Daten verarbeitet und analysiert wurden, können Unternehmen sie dazu nutzen, um Werbung, die Kommunikation auf Social Media, SEO, die Kundenzufriedenheit, die Rentabilität und mehr zu verbessern.
Gesundheitswesen
Das Gesundheitswesen steht unter dem Druck, die Kosten zu senken und gleichzeitig die Versorgung zu verbessern. Daher setzt man dort auf ETL-Lösungen, um Patientenakten zu verwalten, um Versicherungsinformationen zu erfassen und um die sich ständig verändernden behördlichen Vorschriften einzuhalten.
Biowissenschaften
Klinische Labore nutzen ETL-Lösungen und künstliche Intelligenz (KI), um die verschiedenen Datentypen zu verarbeiten, die von Forschungseinrichtungen produziert werden. Die Zusammenarbeit bei der Entwicklung von Impfstoffen erfordert zum Beispiel das Erfassen, Verarbeiten und Analysieren großer Datenmengen.
Öffentliche Verwaltung
Dank der rasanten Weiterentwicklung von Funktionen des Internets der Dinge (IoT), können Smart Cities heute ETL und KI zur Optimierung der Verkehrsführung, zur Überwachung der Wasserqualität, zur Verbesserung der Parkplatzsituation und mehr verwenden.
Service Oriented Architecture (SOA) Suite
Wie lässt sich die Komplexität einer Anwendungsintegration reduzieren? Dank vereinfachter Funktionen für Cloud-, Mobil-, On Premise- und IoT-Integrationen – die alle über eine Plattform verfügbar sind – ermöglicht diese Lösung schnellere Integrationszeiten, eine höhere Produktivität sowie geringere Gesamtbetriebskosten. Viele Unternehmensanwendungen wie Oracle E-Business Suite nutzen dieses Produkt in hohem Maße, um Datenflüsse zu orchestrieren.
GoldenGate
Die digitale Transformation erfordert häufig, dass Daten von dem Ort ihrer Erfassung dorthin verschoben werden, wo sie gebraucht werden. GoldenGate wurde dafür entwickelt, diesen Prozess zu vereinfachen. Oracle GoldenGate ist eine Hochgeschwindigkeitslösung zur Datenreplikation für Echtzeitintegrationen von heterogenen Datenbanken, die sich On Premise, in der Cloud oder in einer autonomen Datenbank befinden. GoldenGate verbessert die Datenverfügbarkeit, ohne die Systemleistung zu beeinträchtigen. Außerdem ermöglicht es den Datenzugriff in Echtzeit und Betriebsberichte.
Cloud Streaming
Cloud Streaming ist eine vollständig verwaltete, skalierbare und dauerhafte Lösung zur Aufnahme und Konsumption hochvolumiger Datenströme in Echtzeit. Dieser Service kann für das Messaging, für Anwendungslogs, für die betriebliche Telemetrie, für Internet-Clickstream-Daten oder jeden anderen Anwendungsfall genutzt werden, bei dem Daten fortlaufend und sequenziell in einem Publish/Subscribe-Messaging-Modell erzeugt und verarbeitet werden. Er ist vollständig kompatibel mit Spark and Kafka.