Was versteht man unter einem Data Warehouse?

Data Warehouse definiert

Ein Data Warehouse ist eine Art Datenmanagementsystem, mit dem BI-Aktivitäten (Business Intelligence), insbesondere Analysen, aktiviert und unterstützt werden. Data Warehouses dienen ausschließlich zur Durchführung von Abfragen und Analysen und enthalten häufig große Mengen an Verlaufsdaten. Die Daten in einem Data Warehouse stammen üblicherweise aus einer Vielzahl von Quellen, z. B. aus Anwendungsprotokolldateien und Transaktionsanwendungen.

Ein Data Warehouse zentralisiert und konsolidiert große Datenmengen aus mehreren Quellen. Die Analysefunktionen ermöglichen es Unternehmen, wertvolle Geschäftsinformationen aus ihren Daten abzuleiten, um die Entscheidungsfindung zu verbessern. Im Laufe der Zeit wird ein Verlaufsdatensatz erstellt, der für Daten- und Geschäftsanalysten von unschätzbarem Wert sein kann. Aufgrund dieser Funktionen kann ein Data Warehouse als Single Source of Truth einer Organisation betrachtet werden.


Video zu Data Warehouse

 

Ein typisches Data Warehouse umfasst häufig die folgenden Elemente:

  • Eine relationale Datenbank zum Speichern und Verwalten von Daten
  • Eine ETL-Lösung (Extract, Transform, Load; Extraktion, Transformation, Laden) zur Aufbereitung der Daten für die Analyse
  • Statistische Analyse-, Berichts- und Data-Mining-Funktionen
  • Kundenanalyse-Tools zur Visualisierung und Präsentation von Daten für Geschäftsanwender
  • Andere, anspruchsvollere Analyseanwendungen, die aktionsfähige Informationen generieren, indem Data Science- und künstliche Intelligenz-(KI-)Algorithmen oder grafische und räumliche Features angewendet werden, die eine umfassendere Analyse von Daten im großen Maßstab ermöglichen

Darüber hinaus können Organisationen eine Lösung wählen, die Transaktionsverarbeitung, Echtzeitanalysen über Data Warehouses und Data Lakes hinweg sowie maschinelles Lernen in einem MySQL Database-Service kombinieren – ohne die Komplexität, Latenz, Kosten und Risiken einer ETL-Duplizierung (Extrahieren, Transformieren und Laden).

Vorteile eines Data Warehouse

Data Warehouses bieten den übergreifenden und einzigartigen Vorteil, dass Unternehmen große Mengen verschiedener Daten analysieren und daraus einen signifikanten Wert ziehen sowie Verlaufsdaten aufzeichnen können.

Vier einzigartige Merkmale (beschrieben von dem Informatiker William Inmon, der als der Begründer der Data Warehouse gilt) ermöglichen es Data Warehouses, diesen übergreifenden Vorteil zu erzielen. Nach dieser Definition sind Data Warehouses

  • Subjektorientiert. Sie können Daten zu einem bestimmten Thema oder Funktionsbereich (z. B. Verkauf) analysieren.
  • Integriert. Data Warehouses sorgen für Konsistenz verschiedener Datentypen aus unterschiedlichen Quellen.
  • Permanent. Sobald sich die Daten in einem Data Warehouse befinden, sind sie stabil und ändern sich nicht mehr.
  • Zeitabhängig. Bei der Data Warehouse-Analyse wird die Veränderung im Laufe der Zeit untersucht.

Ein gut konzipiertes Data Warehouse führt Abfragen sehr schnell durch, liefert einen hohen Datendurchsatz und bietet den Endnutzern genügend Flexibilität für Slice-and-Dice oder um das Datenvolumen für eine genauere Überprüfung zu reduzieren, um eine Vielzahl von Anforderungen zu erfüllen – ob auf einer hohen oder auf einer sehr feinen, detaillierten Ebene. Das Data Warehouse dient als funktionale Grundlage für Middleware-BI-Umgebungen, die Endnutzern Berichte, Dashboards und andere Schnittstellen bereitstellen.

Data Warehouse-Architektur

Die Architektur eines Data Warehouse wird durch die spezifischen Anforderungen des Unternehmens bestimmt. Gängige Architekturen sind

  • Einfach. Alle Data Warehouses teilen sich ein grundlegendes Design, in dem Metadaten, Zusammenfassungsdaten und Rohdaten im zentralen Repository des Warehouse gespeichert werden. Das Repository wird an einem Ende von Datenquellen gespeist und Endnutzer greifen am anderen Ende auf Analyse, Berichterstellung und Data Mining zu.
  • Einfach durch einen Staging-Bereich. Betriebsdaten müssen vor dem Ablegen im Data Warehouse bereinigt und verarbeitet werden. Obwohl dies programmgesteuert erfolgen kann, verfügen viele Data Warehouses zur Vereinfachung der Datenvorbereitung zusätzlich über einen Staging-Bereich für Daten, bevor diese in das Warehouse gelangen.
  • Hub-and-Spoke-Systeme. Durch das Hinzufügen von Data Marts zwischen dem zentralen Repository und den Endnutzern kann ein Unternehmen sein Data Warehouse anpassen, um verschiedene Geschäftsbereiche zu bedienen. Wenn die Daten bereit zur Nutzung sind, werden sie in den entsprechenden Data Mart verschoben.
  • Sandboxes. Sandboxes sind private, sichere Bereiche, in denen Unternehmen schnell und informell nach neuen Datasets oder Möglichkeiten zur Datenanalyse suchen können, ohne die formalen Regeln und Protokolle des Data Warehouse einhalten zu müssen.

Die Entwicklung von Data Warehouses – von der Datenanalyse zur KI und zum maschinellen Lernen

Als Ende der 1980er Jahre Data Warehouses auf den Markt kamen, sollten sie den Datenfluss von Betriebssystemen in Decision-Support-Systeme (DSS) unterstützen. Diese frühen Data Warehouses erforderten eine enorme Redundanz. Die meisten Unternehmen verfügten über mehrere DSS-Umgebungen, die ihren verschiedenen Nutzern zur Verfügung standen. Obwohl die DSS-Umgebungen überwiegend die gleichen Daten verwendeten, wurden das Sammeln, Bereinigen und Integrieren der Daten häufig für jede Umgebung repliziert.

Als Data Warehouses effizienter wurden, entwickelten sie sich von Informationsspeichern, die traditionelle BI-Plattformen unterstützten, zu umfassenden Analyseinfrastrukturen, die eine Vielzahl von Anwendungen unterstützen, wie z. B. operative Analysen und Leistungsmanagement.

Mit Enterprise Data Warehouse (EDW) wurden Data Warehouse-Iterationen im Laufe der Zeit weiterentwickelt, um dem Unternehmen einen zusätzlichen Mehrwert zu bieten.

Schritt Funktion Geschäftlicher Nutzen
1 Transaktionsberichte Enthalten relationale Informationen zum Erstellen von Snapshots der Unternehmensleistung
2 Slice and Dice, Ad-hoc-Abfrage, BI-Tools Erweitern die Funktionen für aussagekräftigere Daten und robustere Analysen
3 Vorhersage der zukünftigen Performance (Data Mining) Entwickeln Visualisierungen und zukunftsweisende Business Intelligence
4 Taktische Analyse (räumlich, statistisch) Bietet Simulationsszenarien zur Information über praktische Entscheidungen auf der Grundlage einer umfassenderen Analyse
5 Speichert Daten von vielen Monaten oder Jahren Speichert Daten nur für Wochen oder Monate

Um jeden dieser fünf Schritte zu unterstützen, waren immer mehr Datasets erforderlich. Insbesondere die letzten drei Schritte schaffen die Voraussetzung für ein noch breiteres Spektrum an Daten- und Analysefunktionen.

Heute verändern KI und maschinelles Lernen fast alle Branchen, Dienstleistungen und Unternehmensressourcen – und Data Warehouses sind da keine Ausnahme. Die Ausweitung von Big Data und die Anwendung neuer digitaler Technologien führen zu Veränderungen bei den Anforderungen und Fähigkeiten im Data Warehouse.

Das Autonomous Data Warehouse ist der letzte Schritt in dieser Entwicklung, der es Unternehmen ermöglicht, noch mehr Wert aus ihren Daten zu ziehen und gleichzeitig die Kosten zu senken sowie die Zuverlässigkeit und Performance des Data Warehouse zu verbessern.

Erfahren Sie mehr über autonome Data Warehouses und beginnen Sie mit Ihrem eigenen autonomen Data Warehouse.

Data Warehouses, Data Marts und Operation Data Stores

Obwohl sie ähnliche Funktionen haben, unterscheiden sich Data Warehouses von Data Marts und Operation Data Stores (ODS). Ein Data Mart hat die gleichen Funktionen wie ein Data Warehouse, aber in einem sehr viel begrenzteren Geltungsbereich – in der Regel einer einzelnen Abteilung oder Branche. Daher sind Data Marts einfacher einzurichten als Data Warehouses. Sie führen jedoch tendenziell zu Inkonsistenzen, da es schwierig sein kann, Daten über zahlreiche Data Marts hinweg einheitlich zu verwalten und zu kontrollieren.

ODS unterstützen nur tägliche Vorgänge, sodass die Anzeige von Verlaufsdaten sehr eingeschränkt ist. Obwohl sie sich als Quellen für aktuelle Daten sehr gut eignen und häufig von Data Warehouses als solche verwendet werden, unterstützen sie keine historisch bedeutenden Abfragen.

Was ist ein Cloud Data Warehouse?

Ein Cloud Data Warehouse nutzt die Cloud, um Daten aus unterschiedlichen Datenquellen aufzunehmen und zu speichern.

Die ursprünglichen Data Warehouses wurden mit On-Premise-Servern erstellt. Diese On-Premise-Data Warehouses bieten auch heute noch viele Vorteile. In vielen Fällen können sie verbesserte Governance, Sicherheit, Datenhoheit und bessere Latenz bieten. On-Premises-Data Warehouses sind jedoch nicht so elastisch und erfordern komplexe Prognosen, um zu bestimmen, wie das Data Warehouse für zukünftige Anforderungen skaliert werden kann. Die Verwaltung dieser Data Warehouses kann ebenfalls sehr komplex sein.

Andererseits bieten Cloud Data Warehouses unter anderem folgende Vorteile:

Die besten Cloud Data Warehouses sind vollständig selbstverwaltet. Dies stellt sicher, dass selbst Anfänger mit nur wenigen Klicks ein Data Warehouse erstellen und verwenden können. Eine einfache Möglichkeit, mit der Migration zu einem Cloud-Data Warehouse zu beginnen, besteht darin, Ihr Cloud-Data Warehouse On-Premise hinter Ihrer Data Center-Firewall auszuführen, die den Anforderungen hinsichtlich Datenhoheit und -sicherheit entspricht.

Darüber hinaus folgen die meisten Cloud-Data Warehouses einem Pay-as-you-go-Modell, mit dem Kosteneinsparungen für die Kunden erzielt werden können.

Was ist ein modernes Data Warehouse?

Ob sie zu IT-, Data Engineering-, Geschäftsanalysen- oder Data Science-Teams gehören – unterschiedliche Benutzer im Unternehmen haben unterschiedliche Anforderungen an ein Data Warehouse.

Eine moderne Datenarchitektur berücksichtigt diese unterschiedlichen Anforderungen, indem sie ermöglicht, alle Datentypen, Workloads und Analysen zu verwalten. Sie besteht aus Architekturmustern mit den erforderlichen Komponenten, die so integriert sind, dass sie in Übereinstimmung mit den Best Practices der Branche zusammenarbeiten. Das moderne Data Warehouse beinhaltet:

  • Eine konvergierte Datenbank, welche die Verwaltung aller Datentypen vereinfacht und verschiedene Möglichkeiten zur Verwendung der Daten bietet
  • Selfservice-Datenaufnahme und Transformationsdienste
  • Unterstützung für SQL, maschinelles Lernen, Diagramme und räumliche Verarbeitung
  • Mehrere Analyseoptionen, mit denen Daten einfach verwendet werden können, ohne sie verschieben zu müssen
  • Eine automatisierte Verwaltung, die eine einfache Bereitstellung, Skalierung und Administration ermöglicht

Ein modernes Data Warehouse kann Datenworkflows effizient so optimieren, wie es bei anderen Warehouses nicht möglich ist. Dies bedeutet, dass jeder, vom Analysten und Data Engineers bis hin zu Data Scientists und IT-Teams, seine Arbeit effektiver ausführen und sich so der innovativen Arbeit widmen kann, die das Unternehmen voranbringt – ohne unzählige Verzögerungen oder überbordende Komplexität.

Entwerfen eines Data Warehouse

Wenn ein Unternehmen ein Data Warehouse entwerfen möchte, muss es zunächst seine spezifischen Geschäftsanforderungen definieren, den Umfang vereinbaren und ein Konzept entwerfen. Das Unternehmen kann dann sowohl den logischen als auch den physischen Entwurf für das Data Warehouse erstellen. Zum logischen Entwurf gehören die Beziehungen zwischen den Objekten und der physische Entwurf umfasst die beste Methode zum Speichern und Abrufen der Objekte. Der physische Entwurf beinhaltet auch Transport-, Sicherungs- und Wiederherstellungsprozesse.

Bei jedem Data Warehouse-Entwurf muss Folgendes berücksichtigt werden:

  • Spezifischer Dateninhalt
  • Beziehungen innerhalb und zwischen Datengruppen
  • Die Systemumgebung, die das Data Warehouse unterstützt
  • Die erforderlichen Arten der Datentransformationen
  • Die Frequenz der Datenaktualisierung

Ein Hauptfaktor beim Entwurf sind die Anforderungen der Endnutzer. Die meisten Endnutzer sind daran interessiert, Analysen durchzuführen und Daten in ihrer Gesamtheit, anstatt als einzelne Transaktionen zu betrachten. Häufig wissen Endnutzer jedoch erst bei einem spezifischen Bedarf wirklich, was sie wollen. Daher sollte der Planungsprozess genügend Untersuchungen umfassen, um den Bedarf zu antizipieren. Schließlich sollte der Entwurf des Data Warehouse Raum für Erweiterung und Weiterentwicklung bieten, um mit den sich wandelnden Anforderungen der Endnutzer Schritt zu halten.

Die Cloud und das Data Warehouse

Data Warehouses in der Cloud haben dieselben Eigenschaften und Vorteile wie On-Premises-Data Warehouses, bieten aber die zusätzlichen Vorteile von Cloud-Computing. Dazu gehören Flexibilität, Skalierbarkeit, Agilität, Sicherheit und geringere Kosten. Mithilfe von Cloud-Data-Warehouses können sich Unternehmen ausschließlich darauf konzentrieren, Daten effektiv zu analysieren, anstatt die Hardware- und Software-Infrastruktur zur Unterstützung von Data Warehouse aufbauen und verwalten zu müssen.

Benötige ich einen Data Lake?

Unternehmen verwenden sowohl Data Lakes als auch Data Warehouses für große Datenmengen aus verschiedenen Quellen. Die Entscheidung für die jeweilige Verwendung hängt davon ab, was das Unternehmen mit den Daten vorhat. Im Folgenden wird der jeweils beste Verwendungszweck beschrieben:

  • Data Lakes speichern eine Fülle an unterschiedlichen, ungefilterten Daten, die später für einen bestimmten Zweck verwendet werden sollen. In einem Data Lake werden Daten aus Unternehmensanwendungen, mobilen Apps, Social Media, IoT-Geräten usw. als Rohdaten erfasst. Die Struktur, Integrität, Auswahl und das Format der verschiedenen Datasets werden zum Zeitpunkt der Analyse von der Person, die die Analyse durchführt, abgeleitet. Wenn Unternehmen kostengünstigen Speicher für unformatierte, unstrukturierte Daten aus mehreren Quellen benötigen, die sie in Zukunft für einen bestimmten Zweck verwenden möchten, ist ein Data Lake möglicherweise die richtige Wahl.
  • Data Warehouses sind speziell für die Analyse von Daten vorgesehen. Die analytische Verarbeitung innerhalb eines Data Warehouse wird für Daten durchgeführt, die für die Analyse gelesen wurden – erfasst, kontextualisiert und transformiert – mit dem Zweck, analysebasierte Daten zu generieren. Data Warehouses können auch große Datenmengen aus verschiedenen Quellen verarbeiten. Wenn Unternehmen erweiterte Datenanalysen benötigen oder Analysen, die sich auf Verlaufsdaten aus mehreren Quellen im Unternehmen stützen, ist ein Data Warehouse wahrscheinlich die richtige Wahl.

Warum führen Sie nicht Analysen für Ihre OLTP-Umgebung aus?

Data Warehouses sind relationale Umgebungen, die zur Datenanalyse, insbesondere von Verlaufsdaten, verwendet werden. Unternehmen nutzen Data Warehouses, um Muster und Beziehungen, die sich im Laufe der Zeit entwickeln, in ihren Daten zu erkennen.

Im Gegensatz dazu werden Transaktionsumgebungen genutzt, um Transaktionen fortlaufend zu verarbeiten. Sie werden häufig für die Auftragserfassung sowie für Finanz- und Einzelhandelstransaktionen verwendet. Sie bauen nicht auf Verlaufsdaten auf. In OLTP-Umgebungen werden Verlaufsdaten häufig archiviert oder einfach gelöscht, um die Performance zu verbessern.

Data Warehouses und OLTP-Systeme unterscheiden sich erheblich.

Data Warehouse OLTP-System
Workload Verarbeitet Ad-hoc-Anfragen und Datenanalysen Unterstützt nur vordefinierte Operationen
Datenänderungen Wird regelmäßig automatisch aktualisiert Aktualisierungen durch Endnutzer, die einzelne Anweisungen ausgeben
Schemadesign Verwendet teilweise denormalisierte Schemata, um die Performance zu optimieren Verwendet vollständig normalisierte Schemata, um Datenkonsistenz sicherzustellen
Datenerfassung Umfasst Tausende bis Millionen von Zeilen Greift auf jeweils nur eine Handvoll Datensätze zu
Verlaufsdaten Speichert Daten von vielen Monaten oder Jahren Speichert Daten nur für Wochen oder Monate

Deployment ohne Komplexität: Autonomous Data Warehouse

Die letzte Iteration des Data Warehouse ist das Autonomous Data Warehouse, das sich auf KI und maschinelles Lernen stützt, um manuelle Aufgaben zu eliminieren und die Einrichtung, Bereitstellung und das Datenmanagement zu vereinfachen. Ein Autonomous Data Warehouse-as-a-Service in der Cloud erfordert keine von Menschen durchgeführte Datenbankverwaltung, Hardwarekonfiguration bzw. -verwaltung oder Software-Installation.

Das Erstellen des Data Warehouse, das Erstellen von Backups, Patching und Upgrade der Datenbank sowie das Erweitern oder Reduzieren der Datenbank werden automatisch ausgeführt – mit der gleichen Flexibilität, Skalierbarkeit, Flexibilität und Kosten, die Cloud-Plattformen bieten. Das Autonomous Data Warehouse verringert die Komplexität, beschleunigt die Bereitstellung und setzt Ressourcen frei, sodass sich Unternehmen auf Aktivitäten konzentrieren können, die einen Mehrwert für das Unternehmen bieten.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse bietet ein benutzerfreundliches, vollständig autonomes Autonomous Data Warehouse, das sich elastisch skalieren lässt, schnelle Abfrageperformance liefert und keine Datenbankadministration erfordert. Das Setup für Oracle Autonomous Data Warehouse erfolgt sehr einfach und schnell.

Warum Sie Oracle Autonomous Data Warehouse anstatt Snowflake wählen sollten

  • Automatisierung. Das einzige Data Warehouse, das die Datenbankadministration vollständig automatisiert.
  • Nutzerfreundlichkeit. Die Autonomous Data Warehouse-Lösung lässt sich dank integrierter Funktionen, die zusätzliche eigenständige Services überflüssig machen, einfacher bereitstellen und verwalten.
  • Lösungskosten. Unser modernes Data Warehouse und die erweiterte Funktion haben ähnliche Kosten wie vergleichbare Workload-Anforderungen.
  • Datensicherheit. Wir bieten stärkere integrierte Sicherheitsprotokolle, die Ihre Daten vor Cyber-Bedrohungen schützen.
  • Data Governance. Mit unserer Data Warehouse-Plattform können Unternehmen die Datensouveränität problemlos erfüllen.