Eine einfache Definition lautet: Ein Data Lake ist ein Ort, um strukturierte und unstrukturierte Daten zu speichern, sowie eine Methode zur Organisation großer Mengen an hochgradig verschiedenartigen Daten aus unterschiedlichen Quellen.
Data Lakes werden immer wichtiger, da viele Leute, besonders in den Bereichen Wirtschaft und Technologie breit angelegte Datenuntersuchungen und -erkennungen durchführen möchten. Das Zusammenführen aller oder der meisten Daten an einem Ort erleichtert das.
Je nach der Plattform, die Sie verwenden, lassen sich solche Prozesse mithilfe eines Data Lakes weitaus einfacher durchführen. Der Data Lake kann viele unterschiedliche Datenstrukturen verarbeiten, wie etwa unstrukturierte und mehrfach strukturierte Daten. Außerdem ermöglicht er Ihnen, von Ihren Daten besser zu profitieren.
Der wichtigste Unterschied zwischen einem Data Lake und einem Data Warehouse ist, dass der Data Lake in der Regel Daten sehr schnell aufnimmt und sie dann später, wenn darauf zugegriffen wird, dynamisch vorbereitet. Bei einem Data Warehouse werden die Daten wiederum sehr sorgfältig im Voraus vorbereitet, bevor sie überhaupt im Data Warehouse abgelegt werden.
Nutzer möchten meistens Daten so schnell wie möglich im Data Lake speichern, sodass Unternehmen mit betrieblichen Anwendungsfällen, insbesondere im Bezug auf die betriebliche Berichterstattung, auf Analysen und auf die Unternehmensüberwachung, die neuesten Daten zur Verfügung stehen. So haben diese Zugriff auf die aktuellsten Daten und Informationen.
Bei einem Data Lake werden Daten oft ohne Änderung in ihrer ursprünglichen Form gespeichert. Ein Grund dafür kann die höhere Geschwindigkeit sein. Aber auch andere Gründe sind möglich wie etwa der Wunsch, erweiterte Analysen durchzuführen, die detaillierte Quelldaten benötigen. Dazu gehören alle Analysen, die auf irgendeiner Art von Data Mining beruhen, wie beispielsweise:
Um alle Vorteile nutzen zu können ,die Data Lakes bieten, sollte eine geeignete Lösung für folgende Vorgänge Verbesserungen ermöglichen:
Ein Data Lake ist nützlicher, wenn er Teil einer größeren Datenmanagementplattform ist. Um einen leistungsfähigeren Data Lake zu erhalten, sollte sich dieser außerdem gut mit bestehenden Daten und Tools integrieren lassen.
Beim Omnichannel-Marketing, manchmal auch Multichannel-Marketing genannt, wird der Data Lake oft dazu verwendet, das Data Warehouse zu erweitern. Bei einem Daten-Ökosystem für das Marketing kann jeder Kanal und jeder Kontaktpunkt als seine eigene Datenbank aufgefasst werden. Außerdem kaufen viele Marketingspezialisten Daten von Drittanbietern ein.
Zum Beispiel könnte ein Marketingspezialist Daten erwerben wollen, die zusätzliche Informationen zur Demografie und zu den Verbrauchervorlieben von Kunden und Interessenten enthalten. Dadurch kann er einen umfassenderen Einblick in die Kunden gewinnen, auf dessen Grundlage wiederum personalisiertere und zielgenauere Marketingkampagnen möglich sind.
Daraus ergibt sich ein komplexes Daten-Ökosystem. Und im Laufe der Zeit nehmen seine Größe und Komplexität immer mehr zu. Oft wird ein Data Lake verwendet, um Daten, die aus mehreren Kanälen und Kontaktpunkten eingehen, zu erfassen. Bei einigen davon kann es sich sogar um Streamingdaten handeln.
Unternehmen, die Ihren Kunden eine Smartphone-App anbieten, könnten derartige Daten in Echtzeit oder beinahe Echtzeit erhalten, wenn ihre Kunden die App verwenden. Oft benötigen Unternehmen jedoch keine Datenerfassung in tatsächlicher Echtzeit. Es reicht dann ,wenn die Daten nicht älter als eine oder zwei Stunden sind. Aber die Marketingabteilung kann mithilfe dieser Informationen die Geschäftsentwicklung sehr feinstufig überwachen und sie zur Erstellung von Sonderangeboten, Anreizen, Rabatten und Mikrokampagnen verwenden.
Bei der digitalen Lieferkette handelt es sich um eine sehr diverse Datenumgebung. Ein Data Lake kann hier Unterstützung bieten, vor allem wenn der Data Lake auf Hadoop ausgeführt wird. Hadoop ist hauptsächlich ein dateibasiertes System, da es ursprünglich für sehr große und sehr viele Logdateien entwickelt wurde, die aus Webservern stammen. Bei einer Lieferkette treten oft große Mengen dateibasierter Daten auf. Denken Sie an datei- und dokumentenbasierte Daten aus EDI-Systemen und XML. Und natürlich sind heutzutage JSONs bei digitalen Lieferketten stark vertreten. Bei derartigen Dateien handelt es sich um äußerst vielgestaltige Informationen.
Außerdem müssen interne Informationen berücksichtigt werden. Hersteller verfügen oft über Daten aus der Produktionsstätte sowie vom Versand und zur Abrechnung, die für Lieferketten sehr relevant sind. Der Data Lake kann Hersteller dabei unterstützen, diese Daten zusammenzuführen und auf dateibasierte Weise zu verwalten.
Bei einigen Unternehmen erschafft das Internet der Dinge fast täglich neue Datenquellen. Und wenn sich diese Quellen diversifizieren, erzeugt dies sogar noch mehr Daten. Es kommen immer mehr Sensoren und Maschinen zum Einsatz. Zum Beispiel ist jeder Güterzug oder Lastwagen mit einer Vielzahl von Sensoren ausgestattet, sodass das Unternehmen das Fahrzeug räumlich und zeitlich nachverfolgen kann. Außerdem kann es so einen ordnungsgemäßen Betrieb kontrollieren. Wird ein Fahrzeug sicher verwendet? Ist die Verwendung bzw. Fahrweise in Bezug auf den Kraftstoffverbrauch auch optimal? Aus derartigen Anwendungen gehen riesige Mengen an Daten ein. Der Data Lake ist nicht zuletzt deshalb so beliebt, weil er für alle diese Daten ein Repository bereitstellt.
Dies waren nun Beispiele für recht zielgerichtete Verwendungen von Data Lakes innerhalb bestimmter Abteilungen oder IT-Programme. Aber eine zentralisierte IT, die einen einzelnen großen Data Lake für mehrere Mandanten bereitstellt, verfolgt normalerweise einen anderen Ansatz. Ein derartiger Data Lake kann von vielen unterschiedlichen Abteilungen, Geschäftsbereichen und Technologieprogrammen verwendet werden. Nachdem die Leute ein wenig mit dem Data Lake vertraut geworden sind, finden sie Wege, wie sie ihn für verschiedene Verwendungen, Abläufe, Analysen und sogar die Compliance optimieren können.
Der Data Lake kann auf viele Arten verwendet und auf vielen Plattformen ausgeführt werden. Hadoop ist dabei die häufigste, aber nicht die einzige Plattform.
Hadoop ist sehr beliebt. Es ermöglicht erwiesenermaßen eine lineare Skalierbarkeit. Seine Skalierbarkeit ist außerdem im Vergleich zu beispielsweise einer relationalen Datenbank sehr kostengünstig. Aber bei Hadoop handelt es sich nicht nur um einen günstigen Speicher. Es ist auch eine leistungsstarke Verarbeitungsplattform. Auch für algorithmische Analysen kann sich Hadoop als überaus nützlich erweisen.
Ein relationales Datenbankmanagementsystem kann ebenfalls als Plattform für einen Data Lake dienen, da manche Leute ein enormes Aufkommen an Daten haben, das sie in einem Data Lake unterbringen wollen, der sowohl strukturiert wie auch relational ist. Wenn also Ihre Daten inhärent relational sind, wäre ein Ansatz unter Verwendung eines DBMS überaus sinnvoll. Sollten Sie zudem Anwendungsfälle haben, bei denen Sie eine relationale Funktion wie SQL oder komplexe Tabellenverknüpfungen verwenden wollen, ist das RDBMS eine hervorragende Lösung.
Aber allgemein geht der Trend zu cloudbasierten Systemen und besonders zu cloudbasiertem Speicher. Der große Vorteil von Clouds liegt in der elastischen Skalierbarkeit. Sie können bei skalierenden Workloads Serverressourcen und sonstige Ressourcen zusätzlich bereitstellen. Und im Vergleich zu vielen On-Premises-Systemen ist die Cloud oft sehr kostengünstig. Ein Grund dafür ist, dass keine Systemintegration erforderlich ist.
Wenn Sie derartiges On-Premise durchführen wollen, müssen Sie oder jemand anderes eine mehrmonatige Systemintegration vornehmen. Aber viele Systeme sind auch über Cloud-Anbieter verfügbar, die diese bereits integriert haben. Sie erwerben dabei im Grunde eine Lizenz und können mit der Nutzung bereits nach ein paar Stunden beginnen – anstatt erst innerhalb einiger Monate. Außerdem weist die Objektspeichermethode in der Cloud, die wir in einem früheren Beitrag zu den Best Practices bei Data Lakes erwähnt haben, viele Vorteile auf.
Und natürlich können Sie mithilfe eines Data Lakes auch eine hybride Mischform realisieren. Wenn Sie mit dem vertraut sind, was wir das logische Data Warehouse nennen, dann können Sie auch etwas ähnliches realisieren: nämlich den logischen Data Lake. Dabei werden Daten physisch über mehrere Plattformen verteilt. Hier gibt es jedoch einige Herausforderungen, wie die Notwendigkeit zur Verwendung spezieller Tools, die sich gut für gleichzeitige Abfragen oder die Datenvisualisierung für weitreichende analytische Abfragen eignen.
Aber auch diese Technologie ist auf der Tool-Ebene verfügbar und wird bereits von vielen Leuten verwendet.
Bei Ihrem Ziel, noch mehr von ihren Daten profitieren zu können, versuchen Unternehmen immer noch einen Schritt weiter zu gehen. Mit Unterstützung des cloubasierten Computings kombinieren sie oft Data Lake-Technologien und Data Warehouses zu einer einzelnen Architektur, die oft als „Data Lakehouse“ bezeichnet wird. Zu den Vorteilen eines Data Lakehouses gehören eine bessere Integration, weniger Datenbewegungen, eine bessere Data Governance und die Unterstützung für mehr Anwendungsfälle.
Mit dem Data Lake können Sie all die großen Mengen an verschiedenartigen Daten aus unterschiedlichen Quellen organisieren. Und wenn Sie ein wenig mit einem Data Lake experimentieren möchten, können wir Ihnen zum Start Oracle Free Tier anbieten.