Ein Data Warehouse ist eine Art Datenmanagementsystem, mit dem BI-Aktivitäten (Business Intelligence), insbesondere Analysen, aktiviert und unterstützt werden. Data Warehouses dienen ausschließlich zur Durchführung von Abfragen und Analysen und enthalten häufig große Mengen an Verlaufsdaten. Die Daten in einem Data Warehouse stammen üblicherweise aus einer Vielzahl von Quellen, z. B. aus Anwendungsprotokolldateien und Transaktionsanwendungen.
Ein Data Warehouse zentralisiert und konsolidiert große Datenmengen aus mehreren Quellen. Die Analysefunktionen ermöglichen es Unternehmen, wertvolle Geschäftsinformationen aus ihren Daten abzuleiten, um die Entscheidungsfindung zu verbessern. Im Laufe der Zeit wird ein Verlaufsdatensatz erstellt, der für Daten- und Geschäftsanalysten von unschätzbarem Wert sein kann. Aufgrund dieser Funktionen kann ein Data Warehouse als Single Source of Truth einer Organisation betrachtet werden.
Ein typisches Data Warehouse umfasst häufig die folgenden Elemente:
Darüber hinaus können Organisationen eine Lösung wählen, die Transaktionsverarbeitung, Echtzeitanalysen über Data Warehouses und Data Lakes hinweg sowie maschinelles Lernen in einem MySQL Database-Service kombinieren – ohne die Komplexität, Latenz, Kosten und Risiken einer ETL-Duplizierung (Extrahieren, Transformieren und Laden).
Data Warehouses bieten den übergreifenden und einzigartigen Vorteil, dass Unternehmen große Mengen verschiedener Daten analysieren und daraus einen signifikanten Wert ziehen sowie Verlaufsdaten aufzeichnen können.
Vier einzigartige Merkmale (beschrieben von dem Informatiker William Inmon, der als der Begründer der Data Warehouse gilt) ermöglichen es Data Warehouses, diesen übergreifenden Vorteil zu erzielen. Nach dieser Definition sind Data Warehouses
Ein gut konzipiertes Data Warehouse führt Abfragen sehr schnell durch, liefert einen hohen Datendurchsatz und bietet den Endnutzern genügend Flexibilität für Slice-and-Dice oder um das Datenvolumen für eine genauere Überprüfung zu reduzieren, um eine Vielzahl von Anforderungen zu erfüllen – ob auf einer hohen oder auf einer sehr feinen, detaillierten Ebene. Das Data Warehouse dient als funktionale Grundlage für Middleware-BI-Umgebungen, die Endnutzern Berichte, Dashboards und andere Schnittstellen bereitstellen.
Die Architektur eines Data Warehouse wird durch die spezifischen Anforderungen des Unternehmens bestimmt. Gängige Architekturen sind
Als Ende der 1980er Jahre Data Warehouses auf den Markt kamen, sollten sie den Datenfluss von Betriebssystemen in Decision-Support-Systeme (DSS) unterstützen. Diese frühen Data Warehouses erforderten eine enorme Redundanz. Die meisten Unternehmen verfügten über mehrere DSS-Umgebungen, die ihren verschiedenen Nutzern zur Verfügung standen. Obwohl die DSS-Umgebungen überwiegend die gleichen Daten verwendeten, wurden das Sammeln, Bereinigen und Integrieren der Daten häufig für jede Umgebung repliziert.
Als Data Warehouses effizienter wurden, entwickelten sie sich von Informationsspeichern, die traditionelle BI-Plattformen unterstützten, zu umfassenden Analyseinfrastrukturen, die eine Vielzahl von Anwendungen unterstützen, wie z. B. operative Analysen und Leistungsmanagement.
Mit Enterprise Data Warehouse (EDW) wurden Data Warehouse-Iterationen im Laufe der Zeit weiterentwickelt, um dem Unternehmen einen zusätzlichen Mehrwert zu bieten.
Schritt | Funktion | Geschäftlicher Nutzen |
---|---|---|
1 | Transaktionsberichte | Enthalten relationale Informationen zum Erstellen von Snapshots der Unternehmensleistung |
2 | Slice and Dice, Ad-hoc-Abfrage, BI-Tools | Erweitern die Funktionen für aussagekräftigere Daten und robustere Analysen |
3 | Vorhersage der zukünftigen Performance (Data Mining) | Entwickeln Visualisierungen und zukunftsweisende Business Intelligence |
4 | Taktische Analyse (räumlich, statistisch) | Bietet Simulationsszenarien zur Information über praktische Entscheidungen auf der Grundlage einer umfassenderen Analyse |
5 | Speichert Daten von vielen Monaten oder Jahren | Speichert Daten nur für Wochen oder Monate |
Um jeden dieser fünf Schritte zu unterstützen, waren immer mehr Datasets erforderlich. Insbesondere die letzten drei Schritte schaffen die Voraussetzung für ein noch breiteres Spektrum an Daten- und Analysefunktionen.
Heute verändern KI und maschinelles Lernen fast alle Branchen, Dienstleistungen und Unternehmensressourcen – und Data Warehouses sind da keine Ausnahme. Die Ausweitung von Big Data und die Anwendung neuer digitaler Technologien führen zu Veränderungen bei den Anforderungen und Fähigkeiten im Data Warehouse.
Das Autonomous Data Warehouse ist der letzte Schritt in dieser Entwicklung, der es Unternehmen ermöglicht, noch mehr Wert aus ihren Daten zu ziehen und gleichzeitig die Kosten zu senken sowie die Zuverlässigkeit und Performance des Data Warehouse zu verbessern.
Erfahren Sie mehr über autonome Data Warehouses und beginnen Sie mit Ihrem eigenen autonomen Data Warehouse.
Obwohl sie ähnliche Funktionen haben, unterscheiden sich Data Warehouses von Data Marts und Operation Data Stores (ODS). Ein Data Mart hat die gleichen Funktionen wie ein Data Warehouse, aber in einem sehr viel begrenzteren Geltungsbereich – in der Regel einer einzelnen Abteilung oder Branche. Daher sind Data Marts einfacher einzurichten als Data Warehouses. Sie führen jedoch tendenziell zu Inkonsistenzen, da es schwierig sein kann, Daten über zahlreiche Data Marts hinweg einheitlich zu verwalten und zu kontrollieren.
ODS unterstützen nur tägliche Vorgänge, sodass die Anzeige von Verlaufsdaten sehr eingeschränkt ist. Obwohl sie sich als Quellen für aktuelle Daten sehr gut eignen und häufig von Data Warehouses als solche verwendet werden, unterstützen sie keine historisch bedeutenden Abfragen.
Ein Cloud Data Warehouse nutzt die Cloud, um Daten aus unterschiedlichen Datenquellen aufzunehmen und zu speichern.
Die ursprünglichen Data Warehouses wurden mit On-Premise-Servern erstellt. Diese On-Premise-Data Warehouses bieten auch heute noch viele Vorteile. In vielen Fällen können sie verbesserte Governance, Sicherheit, Datenhoheit und bessere Latenz bieten. On-Premises-Data Warehouses sind jedoch nicht so elastisch und erfordern komplexe Prognosen, um zu bestimmen, wie das Data Warehouse für zukünftige Anforderungen skaliert werden kann. Die Verwaltung dieser Data Warehouses kann ebenfalls sehr komplex sein.
Andererseits bieten Cloud Data Warehouses unter anderem folgende Vorteile:
Die besten Cloud Data Warehouses sind vollständig selbstverwaltet. Dies stellt sicher, dass selbst Anfänger mit nur wenigen Klicks ein Data Warehouse erstellen und verwenden können. Eine einfache Möglichkeit, mit der Migration zu einem Cloud-Data Warehouse zu beginnen, besteht darin, Ihr Cloud-Data Warehouse On-Premise hinter Ihrer Data Center-Firewall auszuführen, die den Anforderungen hinsichtlich Datenhoheit und -sicherheit entspricht.
Darüber hinaus folgen die meisten Cloud-Data Warehouses einem Pay-as-you-go-Modell, mit dem Kosteneinsparungen für die Kunden erzielt werden können.
Ob sie zu IT-, Data Engineering-, Geschäftsanalysen- oder Data Science-Teams gehören – unterschiedliche Benutzer im Unternehmen haben unterschiedliche Anforderungen an ein Data Warehouse.
Eine moderne Datenarchitektur berücksichtigt diese unterschiedlichen Anforderungen, indem sie ermöglicht, alle Datentypen, Workloads und Analysen zu verwalten. Sie besteht aus Architekturmustern mit den erforderlichen Komponenten, die so integriert sind, dass sie in Übereinstimmung mit den Best Practices der Branche zusammenarbeiten. Das moderne Data Warehouse beinhaltet:
Ein modernes Data Warehouse kann Datenworkflows effizient so optimieren, wie es bei anderen Warehouses nicht möglich ist. Dies bedeutet, dass jeder, vom Analysten und Data Engineers bis hin zu Data Scientists und IT-Teams, seine Arbeit effektiver ausführen und sich so der innovativen Arbeit widmen kann, die das Unternehmen voranbringt – ohne unzählige Verzögerungen oder überbordende Komplexität.
Wenn ein Unternehmen ein Data Warehouse entwerfen möchte, muss es zunächst seine spezifischen Geschäftsanforderungen definieren, den Umfang vereinbaren und ein Konzept entwerfen. Das Unternehmen kann dann sowohl den logischen als auch den physischen Entwurf für das Data Warehouse erstellen. Zum logischen Entwurf gehören die Beziehungen zwischen den Objekten und der physische Entwurf umfasst die beste Methode zum Speichern und Abrufen der Objekte. Der physische Entwurf beinhaltet auch Transport-, Sicherungs- und Wiederherstellungsprozesse.
Bei jedem Data Warehouse-Entwurf muss Folgendes berücksichtigt werden:
Ein Hauptfaktor beim Entwurf sind die Anforderungen der Endnutzer. Die meisten Endnutzer sind daran interessiert, Analysen durchzuführen und Daten in ihrer Gesamtheit, anstatt als einzelne Transaktionen zu betrachten. Häufig wissen Endnutzer jedoch erst bei einem spezifischen Bedarf wirklich, was sie wollen. Daher sollte der Planungsprozess genügend Untersuchungen umfassen, um den Bedarf zu antizipieren. Schließlich sollte der Entwurf des Data Warehouse Raum für Erweiterung und Weiterentwicklung bieten, um mit den sich wandelnden Anforderungen der Endnutzer Schritt zu halten.
Data Warehouses in der Cloud haben dieselben Eigenschaften und Vorteile wie On-Premises-Data Warehouses, bieten aber die zusätzlichen Vorteile von Cloud-Computing. Dazu gehören Flexibilität, Skalierbarkeit, Agilität, Sicherheit und geringere Kosten. Mithilfe von Cloud-Data-Warehouses können sich Unternehmen ausschließlich darauf konzentrieren, Daten effektiv zu analysieren, anstatt die Hardware- und Software-Infrastruktur zur Unterstützung von Data Warehouse aufbauen und verwalten zu müssen.
Unternehmen verwenden sowohl Data Lakes als auch Data Warehouses für große Datenmengen aus verschiedenen Quellen. Die Entscheidung für die jeweilige Verwendung hängt davon ab, was das Unternehmen mit den Daten vorhat. Im Folgenden wird der jeweils beste Verwendungszweck beschrieben:
Data Warehouses sind relationale Umgebungen, die zur Datenanalyse, insbesondere von Verlaufsdaten, verwendet werden. Unternehmen nutzen Data Warehouses, um Muster und Beziehungen, die sich im Laufe der Zeit entwickeln, in ihren Daten zu erkennen.
Im Gegensatz dazu werden Transaktionsumgebungen genutzt, um Transaktionen fortlaufend zu verarbeiten. Sie werden häufig für die Auftragserfassung sowie für Finanz- und Einzelhandelstransaktionen verwendet. Sie bauen nicht auf Verlaufsdaten auf. In OLTP-Umgebungen werden Verlaufsdaten häufig archiviert oder einfach gelöscht, um die Performance zu verbessern.
Data Warehouses und OLTP-Systeme unterscheiden sich erheblich.
Data Warehouse | OLTP-System | |
---|---|---|
Workload | Verarbeitet Ad-hoc-Anfragen und Datenanalysen | Unterstützt nur vordefinierte Operationen |
Datenänderungen | Wird regelmäßig automatisch aktualisiert | Aktualisierungen durch Endnutzer, die einzelne Anweisungen ausgeben |
Schemadesign | Verwendet teilweise denormalisierte Schemata, um die Performance zu optimieren | Verwendet vollständig normalisierte Schemata, um Datenkonsistenz sicherzustellen |
Datenerfassung | Umfasst Tausende bis Millionen von Zeilen | Greift auf jeweils nur eine Handvoll Datensätze zu |
Verlaufsdaten | Speichert Daten von vielen Monaten oder Jahren | Speichert Daten nur für Wochen oder Monate |
Die letzte Iteration des Data Warehouse ist das Autonomous Data Warehouse, das sich auf KI und maschinelles Lernen stützt, um manuelle Aufgaben zu eliminieren und die Einrichtung, Bereitstellung und das Datenmanagement zu vereinfachen. Ein Autonomous Data Warehouse-as-a-Service in der Cloud erfordert keine von Menschen durchgeführte Datenbankverwaltung, Hardwarekonfiguration bzw. -verwaltung oder Software-Installation.
Das Erstellen des Data Warehouse, das Erstellen von Backups, Patching und Upgrade der Datenbank sowie das Erweitern oder Reduzieren der Datenbank werden automatisch ausgeführt – mit der gleichen Flexibilität, Skalierbarkeit, Flexibilität und Kosten, die Cloud-Plattformen bieten. Das Autonomous Data Warehouse verringert die Komplexität, beschleunigt die Bereitstellung und setzt Ressourcen frei, sodass sich Unternehmen auf Aktivitäten konzentrieren können, die einen Mehrwert für das Unternehmen bieten.
Oracle Autonomous Data Warehouse bietet ein benutzerfreundliches, vollständig autonomes Autonomous Data Warehouse, das sich elastisch skalieren lässt, schnelle Abfrageperformance liefert und keine Datenbankadministration erfordert. Das Setup für Oracle Autonomous Data Warehouse erfolgt sehr einfach und schnell.