Was ist ein Data Lake?

Definition eines Data Lakes

Eine einfache Definition lautet: Ein Data Lake ist ein Ort, um strukturierte und unstrukturierte Daten zu speichern, sowie eine Methode zur Organisation großer Mengen an hochgradig verschiedenartigen Daten aus unterschiedlichen Quellen.

Data Lakes werden immer wichtiger, da viele Leute, besonders in den Bereichen Wirtschaft und Technologie breit angelegte Datenuntersuchungen und -erkennungen durchführen möchten. Das Zusammenführen aller oder der meisten Daten an einem Ort erleichtert das.

Je nach der Plattform, die Sie verwenden, lassen sich solche Prozesse mithilfe eines Data Lakes weitaus einfacher durchführen. Der Data Lake kann viele unterschiedliche Datenstrukturen verarbeiten, wie etwa unstrukturierte und mehrfach strukturierte Daten. Außerdem ermöglicht er Ihnen, von Ihren Daten besser zu profitieren.

Data Lake und Data Warehouse

Data Lakes im Vergleich zu Data Warehouses

Der wichtigste Unterschied zwischen einem Data Lake und einem Data Warehouse ist, dass der Data Lake in der Regel Daten sehr schnell aufnimmt und sie dann später, wenn darauf zugegriffen wird, dynamisch vorbereitet. Bei einem Data Warehouse werden die Daten wiederum sehr sorgfältig im Voraus vorbereitet, bevor sie überhaupt im Data Warehouse abgelegt werden.

Nutzer möchten meistens Daten so schnell wie möglich im Data Lake speichern, sodass Unternehmen mit betrieblichen Anwendungsfällen, insbesondere im Bezug auf die betriebliche Berichterstattung, auf Analysen und auf die Unternehmensüberwachung, die neuesten Daten zur Verfügung stehen. So haben diese Zugriff auf die aktuellsten Daten und Informationen.

Bei einem Data Lake werden Daten oft ohne Änderung in ihrer ursprünglichen Form gespeichert. Ein Grund dafür kann die höhere Geschwindigkeit sein. Aber auch andere Gründe sind möglich wie etwa der Wunsch, erweiterte Analysen durchzuführen, die detaillierte Quelldaten benötigen. Dazu gehören alle Analysen, die auf irgendeiner Art von Data Mining beruhen, wie beispielsweise:

  • Text-Mining
  • Data Mining
  • Statistische Analysen
  • Analysen, die Cluster beinhalten
  • Graphanalyse

Anwendungsfälle für Data Lakes

Um alle Vorteile nutzen zu können ,die Data Lakes bieten, sollte eine geeignete Lösung für folgende Vorgänge Verbesserungen ermöglichen:

  • Aufnahme und Transformation:Das Verschieben und Konvertieren verschiedener Arten und Formate von Daten
  • Beibehaltung und Zugriff: Gewährleistung, dass Daten sicher sind, dass sie problemlos erkannt werden, dass sie einfach nach Bedarf skaliert werden können und dass sie nach Bedarf über alle Produkte zugreifbar sind
  • Analysen und Anwendung von Data Science: Das Erschließen von Erkenntnissen und Trends innerhalb der Daten

Ein Data Lake ist nützlicher, wenn er Teil einer größeren Datenmanagementplattform ist. Um einen leistungsfähigeren Data Lake zu erhalten, sollte sich dieser außerdem gut mit bestehenden Daten und Tools integrieren lassen.

Data Lake für das Omnichannel-Marketing

Beim Omnichannel-Marketing, manchmal auch Multichannel-Marketing genannt, wird der Data Lake oft dazu verwendet, das Data Warehouse zu erweitern. Bei einem Daten-Ökosystem für das Marketing kann jeder Kanal und jeder Kontaktpunkt als seine eigene Datenbank aufgefasst werden. Außerdem kaufen viele Marketingspezialisten Daten von Drittanbietern ein.

Zum Beispiel könnte ein Marketingspezialist Daten erwerben wollen, die zusätzliche Informationen zur Demografie und zu den Verbrauchervorlieben von Kunden und Interessenten enthalten. Dadurch kann er einen umfassenderen Einblick in die Kunden gewinnen, auf dessen Grundlage wiederum personalisiertere und zielgenauere Marketingkampagnen möglich sind.

Daraus ergibt sich ein komplexes Daten-Ökosystem. Und im Laufe der Zeit nehmen seine Größe und Komplexität immer mehr zu. Oft wird ein Data Lake verwendet, um Daten, die aus mehreren Kanälen und Kontaktpunkten eingehen, zu erfassen. Bei einigen davon kann es sich sogar um Streamingdaten handeln.

Unternehmen, die Ihren Kunden eine Smartphone-App anbieten, könnten derartige Daten in Echtzeit oder beinahe Echtzeit erhalten, wenn ihre Kunden die App verwenden. Oft benötigen Unternehmen jedoch keine Datenerfassung in tatsächlicher Echtzeit. Es reicht dann ,wenn die Daten nicht älter als eine oder zwei Stunden sind. Aber die Marketingabteilung kann mithilfe dieser Informationen die Geschäftsentwicklung sehr feinstufig überwachen und sie zur Erstellung von Sonderangeboten, Anreizen, Rabatten und Mikrokampagnen verwenden.

Data Lakes für digitale Lieferketten

Bei der digitalen Lieferkette handelt es sich um eine sehr diverse Datenumgebung. Ein Data Lake kann hier Unterstützung bieten, vor allem wenn der Data Lake auf Hadoop ausgeführt wird. Hadoop ist hauptsächlich ein dateibasiertes System, da es ursprünglich für sehr große und sehr viele Logdateien entwickelt wurde, die aus Webservern stammen. Bei einer Lieferkette treten oft große Mengen dateibasierter Daten auf. Denken Sie an datei- und dokumentenbasierte Daten aus EDI-Systemen und XML. Und natürlich sind heutzutage JSONs bei digitalen Lieferketten stark vertreten. Bei derartigen Dateien handelt es sich um äußerst vielgestaltige Informationen.

Außerdem müssen interne Informationen berücksichtigt werden. Hersteller verfügen oft über Daten aus der Produktionsstätte sowie vom Versand und zur Abrechnung, die für Lieferketten sehr relevant sind. Der Data Lake kann Hersteller dabei unterstützen, diese Daten zusammenzuführen und auf dateibasierte Weise zu verwalten.

Data Lakes für das Internet der Dinge

Bei einigen Unternehmen erschafft das Internet der Dinge fast täglich neue Datenquellen. Und wenn sich diese Quellen diversifizieren, erzeugt dies sogar noch mehr Daten. Es kommen immer mehr Sensoren und Maschinen zum Einsatz. Zum Beispiel ist jeder Güterzug oder Lastwagen mit einer Vielzahl von Sensoren ausgestattet, sodass das Unternehmen das Fahrzeug räumlich und zeitlich nachverfolgen kann. Außerdem kann es so einen ordnungsgemäßen Betrieb kontrollieren. Wird ein Fahrzeug sicher verwendet? Ist die Verwendung bzw. Fahrweise in Bezug auf den Kraftstoffverbrauch auch optimal? Aus derartigen Anwendungen gehen riesige Mengen an Daten ein. Der Data Lake ist nicht zuletzt deshalb so beliebt, weil er für alle diese Daten ein Repository bereitstellt.

Ein einzelner Data Lake

Dies waren nun Beispiele für recht zielgerichtete Verwendungen von Data Lakes innerhalb bestimmter Abteilungen oder IT-Programme. Aber eine zentralisierte IT, die einen einzelnen großen Data Lake für mehrere Mandanten bereitstellt, verfolgt normalerweise einen anderen Ansatz. Ein derartiger Data Lake kann von vielen unterschiedlichen Abteilungen, Geschäftsbereichen und Technologieprogrammen verwendet werden. Nachdem die Leute ein wenig mit dem Data Lake vertraut geworden sind, finden sie Wege, wie sie ihn für verschiedene Verwendungen, Abläufe, Analysen und sogar die Compliance optimieren können.

Verschiedene Arten von Data Lake-Plattformen

Der Data Lake kann auf viele Arten verwendet und auf vielen Plattformen ausgeführt werden. Hadoop ist dabei die häufigste, aber nicht die einzige Plattform.

Hadoop

Hadoop ist sehr beliebt. Es ermöglicht erwiesenermaßen eine lineare Skalierbarkeit. Seine Skalierbarkeit ist außerdem im Vergleich zu beispielsweise einer relationalen Datenbank sehr kostengünstig. Aber bei Hadoop handelt es sich nicht nur um einen günstigen Speicher. Es ist auch eine leistungsstarke Verarbeitungsplattform. Auch für algorithmische Analysen kann sich Hadoop als überaus nützlich erweisen.

Relationales Datenbankmanagementsystem

Ein relationales Datenbankmanagementsystem kann ebenfalls als Plattform für einen Data Lake dienen, da manche Leute ein enormes Aufkommen an Daten haben, das sie in einem Data Lake unterbringen wollen, der sowohl strukturiert wie auch relational ist. Wenn also Ihre Daten inhärent relational sind, wäre ein Ansatz unter Verwendung eines DBMS überaus sinnvoll. Sollten Sie zudem Anwendungsfälle haben, bei denen Sie eine relationale Funktion wie SQL oder komplexe Tabellenverknüpfungen verwenden wollen, ist das RDBMS eine hervorragende Lösung.

Cloudbasierter Speicher

Aber allgemein geht der Trend zu cloudbasierten Systemen und besonders zu cloudbasiertem Speicher. Der große Vorteil von Clouds liegt in der elastischen Skalierbarkeit. Sie können bei skalierenden Workloads Serverressourcen und sonstige Ressourcen zusätzlich bereitstellen. Und im Vergleich zu vielen On-Premises-Systemen ist die Cloud oft sehr kostengünstig. Ein Grund dafür ist, dass keine Systemintegration erforderlich ist.

Wenn Sie derartiges On-Premise durchführen wollen, müssen Sie oder jemand anderes eine mehrmonatige Systemintegration vornehmen. Aber viele Systeme sind auch über Cloud-Anbieter verfügbar, die diese bereits integriert haben. Sie erwerben dabei im Grunde eine Lizenz und können mit der Nutzung bereits nach ein paar Stunden beginnen – anstatt erst innerhalb einiger Monate. Außerdem weist die Objektspeichermethode in der Cloud, die wir in einem früheren Beitrag zu den Best Practices bei Data Lakes erwähnt haben, viele Vorteile auf.

Und natürlich können Sie mithilfe eines Data Lakes auch eine hybride Mischform realisieren. Wenn Sie mit dem vertraut sind, was wir das logische Data Warehouse nennen, dann können Sie auch etwas ähnliches realisieren: nämlich den logischen Data Lake. Dabei werden Daten physisch über mehrere Plattformen verteilt. Hier gibt es jedoch einige Herausforderungen, wie die Notwendigkeit zur Verwendung spezieller Tools, die sich gut für gleichzeitige Abfragen oder die Datenvisualisierung für weitreichende analytische Abfragen eignen.

Aber auch diese Technologie ist auf der Tool-Ebene verfügbar und wird bereits von vielen Leuten verwendet.

Data Lakehouse, die Zukunft des Data Lake?

Bei Ihrem Ziel, noch mehr von ihren Daten profitieren zu können, versuchen Unternehmen immer noch einen Schritt weiter zu gehen. Mit Unterstützung des cloubasierten Computings kombinieren sie oft Data Lake-Technologien und Data Warehouses zu einer einzelnen Architektur, die oft als „Data Lakehouse“ bezeichnet wird. Zu den Vorteilen eines Data Lakehouses gehören eine bessere Integration, weniger Datenbewegungen, eine bessere Data Governance und die Unterstützung für mehr Anwendungsfälle.

Erstellen eines Data Lakehouses

Mit dem Data Lake können Sie all die großen Mengen an verschiedenartigen Daten aus unterschiedlichen Quellen organisieren. Und wenn Sie ein wenig mit einem Data Lake experimentieren möchten, können wir Ihnen zum Start Oracle Free Tier anbieten.