Michael Chen | Content Strategist | 4. Januar 2024
Datenquellen sind in der digitalen Geschäftswelt allgegenwärtig: Internet of Things (IoT)-Geräte, die Nutzerbasis einer App in einem ERP-System und Kundendienstanfragen in CRM-Software. Wie können Unternehmen bei einer so großen Menge an Daten, die ständig einströmen, die benötigten Informationen herausfiltern? Tools wie Analyseplattformen können zwar Erkenntnisse liefern, aber nur, wenn die Datensätze so integriert sind, dass Zusammenhänge hergestellt werden können. Andernfalls müssen die Nutzer Tabellen manuell bearbeiten, was Zeit kostet, mühsam ist und das Risiko birgt, durch veraltete, fehlerhafte oder doppelte Daten vom Kurs abzukommen.
Der technische Fortschritt hat den Prozess der Datenzusammenführung, -speicherung und -bereitstellung für Geschäftsnutzer vereinfacht. Der erste Schritt: Daten aus mehreren Quellen integrieren. Das ist der Schlüssel zu einer datengesteuerten Organisation und eröffnet eine Reihe von Möglichkeiten für Selfservice-Analysen und Business Intelligence. Nutzer, die in der Lage sind, selbst Abfragen zu erstellen, können zu erstaunlichen Erkenntnissen gelangen.
Um dieses Stadium zu erreichen, bedarf es jedoch einer Datenintegrationsstrategie, einer Infrastruktur, die in der Lage ist, Verbindungen zwischen mehreren Quellen effektiv zu unterstützen, und eines Data Lake oder Data Warehouse.
Datenintegration, Data Blending und Data Joining beginnen alle mit demselben Schritt: der Kombination mehrerer Datenquellen. Die Techniken unterscheiden sich durch den Grad der Standardisierung von Definitionen und Nomenklatur und dadurch, an welcher Stelle des Prozesses Transformationen stattfinden. Bei der Entscheidung, welche Methode verwendet werden soll, sollten Sie sich Fragen stellen wie: Entspricht der extrahierte Datensatz Ihren internen Standards, oder muss er stark umgewandelt werden? Erzeugt die Bezugsquelle regelmäßig Duplikate oder andere Probleme, die eine Datenbereinigung erfordern?
Wenn Sie die Qualität Ihrer Datenquellen verstehen, kann Ihr Unternehmen seinen Datenzielen näher kommen.
Datenintegration, Data Joining und Data Blending sind drei Begriffe, die im modernen IT-Jargon häufig verwendet werden. Sie werden auch oft verwechselt, weil die Unterschiede zwischen ihnen sehr subtil sind. Einige allgemein gültige Faktoren: Unabhängig davon, ob die Datenumwandlung vor oder nach dem Laden in ein Repository erfolgt, ist dies oft der mühsamste und arbeitsintensivste Schritt im Prozess. Daher sollten Sie so viel wie möglich automatisieren.
Hier sind die grundlegenden Definitionen und deren Vergleich.
In der folgenden Tabelle werden die Unterschiede zwischen Datenintegration, Data Blending und Data Joining aufgeschlüsselt.
Datenintegration | Data Blending | Data Joining | |
---|---|---|---|
Werden mehrere Quellen kombiniert? | Ja | Ja | Ja |
Üblicherweise von der IT-Abteilung oder vom Benutzer gehandhabt? | IT | Benutzer | Benutzer |
Werden die Daten vor der Ausgabe bereinigt? | Ja | Nein | Nein |
Ist nach der Ausgabe eine Bereinigung erforderlich? | Nein | Ja | Ja |
Empfehlen Sie die Verwendung derselben Quelle? | Nein | Nein | Ja |
Extrahieren/Laden/Transformieren oder Extrahieren/Transformieren/Laden? | Extrahieren/Transformieren/Laden | Extrahieren/Transformieren/Laden | Extrahieren/Transformieren/Laden |
Wichtige Erkenntnisse
Tools entwickeln sich ständig weiter, Datenquellen werden umfangreicher, und die Möglichkeiten nehmen zu. Dadurch ergeben sich ständig neue Möglichkeiten, die Datenintegrations-Workflows zu verfeinern und robustere und effizientere Prozesse einzuführen.
Obwohl jedes Unternehmen seine eigenen spezifischen Anforderungen hat, folgt die Datenintegration im Allgemeinen einem Standardprozess.
In dieser Phase kann der kombinierte Datensatz dem Antragsteller zur Verfügung gestellt werden, um ihn manuell zu bereinigen und zu analysieren. Alternativ können die Daten von einem Data Scientist oder Data Curator normalisiert werden, bevor sie dem Unternehmen bereitgestellt werden. Unabhängig davon, wie die Daten dorthin gelangen, sind in der Regel zusätzliche Prozesse erforderlich, um eine einheitliche Nomenklatur zwischen den Spalten zu gewährleisten, doppelte Daten zu entfernen, ungenaue oder fehlerhafte Daten zu korrigieren, unvollständige Datensätze zu berichtigen und andere Aufgaben zu erledigen.
Wenn diese Aufgaben abgeschlossen sind, können die Daten in Analyseanwendungen, Business Intelligence-Systeme oder sogar einfach in eine Excel-Datei geladen werden, damit der Endnutzer sie analysieren und bearbeiten kann, um Erkenntnisse und Visualisierungen zu gewinnen.
Ein Ziel der IT-Abteilungen sollte es sein, die Effizienz dieses Prozesses zu maximieren. Dazu müssen automatisierte Umwandlungen geplant werden, die den manuellen Arbeitsaufwand minimieren. Der Weg dorthin hängt jedoch von vielen Variablen ab: woher die Datenquellen kommen, ob diese Quellen geprüft werden, welche Felder priorisiert werden, ob es etablierte Datenregeln gibt und welche Arten von Workflows vorhanden sind.
Die größtmögliche Automatisierung des Datenbereinigungsprozesses kann bei der Verwendung mehrerer Datenquellen der wichtigste Teil sein, da sie eine Selfservice-Umgebung ermöglicht, die die Daten schneller in die Hände der Benutzer bringt.
Falls Ihnen der Aufbau eines Datenintegrationsprozesses als sehr aufwändig erscheint, dann liegt das daran, dass er es auch wirklich ist. Ein reibungsloser Datenintegrationsprozess – von der Überprüfung der Bezugsquellen bis zur Ausarbeitung und Optimierung eines Datenbereinigungs-Workflows – erfordert Sorgfalt und Planung. Der Nutzen wird jedoch schnell deutlich.
Im Geschäftsleben war Zeit schon immer gleichbedeutend mit Geld. Im Zeitalter von Big Data, in dem Echtzeitinformationen von Lieferanten und Kunden aus aller Welt einfließen, steigt die Bedeutung dieser einfachen Formel allerdings exponentiell. Die Umstände ändern sich schnell, und die Höhen und Tiefen des Geschäftslebens sind oft unvorhersehbar. Liegen Daten in Silos vor, haben Geschäftsbereiche, die neue Informationen analysieren oder Innovationsmöglichkeiten erkunden wollen, oft das Gefühl, mehrere Schritte hinterher zu sein. Die Wahrheit ist, es fühlt sich so an, weil sie es wirklich sind. Wenn Geschäftseinheiten für Datenextrakte und Analyseberichte auf andere Teams angewiesen sind, kommt es zu Verzögerungen.
Letztendlich sind Informationen nur dann wertvoll, wenn sie kontinuierlich fließen.
Die Integration von Daten aus verschiedenen Bezugsquellen beseitigt viele manuelle Hürden. Dadurch wiederum öffnet sich die Tür zu einer breiteren Palette von Datenquellen, um verborgene Erkenntnisse aufzudecken und wahrhaft datengesteuerte Entscheidungen zu treffen. So werden die Fähigkeiten und die Effizienz der Mitarbeiter gesteigert, was sich wiederum positiv auf die Innovationskraft und die Chancen des Unternehmens auswirkt. Die Integration verschiedener Datenquellen ermöglicht es Unternehmen, neue Ideen und Lösungen zu finden, schnell zu reagieren und der Konkurrenz stets einen Schritt voraus zu sein.
Eine erfolgreiche Datenintegration sichert Organisationen jetzt und in Zukunft einen Wettbewerbsvorteil, insbesondere angesichts der zunehmenden Datenvielfalt. Um dieses Ziel zu erreichen, bedarf es jedoch einer Kombination aus technischer Konfiguration und organisatorischem Verständnis. Indem sie sich diesen Herausforderungen stellen, können Organisationen die Art und Weise verändern, wie Entscheidungen in den Bereichen Betrieb, Vertrieb, Finanzen, Fertigung und in nahezu allen anderen Abteilungen getroffen werden.
Hier finden Sie einige Vorteile und Hürden, die für eine erfolgreiche Datenintegration überwunden werden müssen.
Eine erfolgreiche Datenintegration erfordert eine solide Grundlage in verschiedenen Bereichen, darunter technischer Support, Geschäftsziele und Unternehmenskultur. Im Folgenden sind die drei wichtigsten Punkte aufgeführt, die vor dem Start einer Datenintegrationsinitiative geprüft werden sollten.
Um erfolgreich zu sein, benötigt eine Datenintegrationsstrategie eine geeignete Technologie, Teams zur Verwaltung der Quelldaten und der Dateneingabe, Geschäftsnutzer zum Herunterladen und effektiven Einsatz der konsolidierten Daten sowie eine Führungsebene, die die Budgets für das Projekt genehmigt. Jeder dieser Akteure ist von entscheidender Bedeutung. Ohne eine unternehmensweite Akzeptanz werden Strategien fehlgeleitet oder manchmal auch einfach begraben.
Unternehmen sollten den Grund für ihre Datenintegrationsprojekte festlegen. Geht es darum, Prozesse zu beschleunigen, die Datenanalyse zu verbessern, mehr datengestützte Erkenntnisse zu gewinnen, die Datengenauigkeit zu verbessern oder um eine Kombination all dieser Aspekte? Handelt es sich um eine spezielle Abteilung oder um eine umfassendere Initiative?
Durch die Festlegung spezifischer Ziele und Parameter können Unternehmen einen gezielteren und effektiveren Ansatz zur Erreichung ihrer Datenziele entwickeln.
Bevor Sie mit einem Datenintegrationsprojekt beginnen, sollten Sie die vorhandenen Systeme und Daten kennen, mit denen Sie arbeiten. Im optimalen Fall können die Daten einfach exportiert werden, und es gibt bereits eine abteilungsübergreifende Vereinbarung und Abstimmung über Formate und Standards. Was passiert aber, wenn sich Ziele, Prozesse oder native Datenformate zwischen den Abteilungen erheblich unterscheiden? Hier kommt das Executive-Sponsoring ins Spiel.
Die Integration von Daten aus mehreren Bezugsquellen erfolgt in mehreren Schritten. Während des gesamten Prozesses ist es jedoch wichtig, die Datenqualität und -integrität sowie die einschlägigen Vorschriften zur Datensicherheit und zum Datenschutz im Auge zu behalten. Und sobald die Daten integriert sind, sollten Sie für eine regelmäßige Überwachung und Wartung sorgen, um die Datenqualität und -integrität langfristig zu gewährleisten.
Datenquellen liegen in vielen verschiedenen Formaten und an vielen verschiedenen Orten vor. Jedes Unternehmen verfügt über eine einzigartige Kombination von Datenquellen, wie zum Beispiel die folgenden:
Unabhängig vom Format und anderen Variablen ist es am wichtigsten, Datenquellen zu identifizieren und auszuwählen, die zur Erreichung der Geschäftsziele beitragen, und dann zu prüfen, wie sie am besten integriert werden können.
Sobald Sie Ihre Datenquellen identifiziert haben, ist es an der Zeit zu prüfen, wie deren Datensätze formatiert und definiert sind. Es gibt zwei wichtige Vorbereitungsschritte.
Was am besten funktioniert, hängt schließlich vom Zustand der einzelnen Datensätze und den Zielen Ihres Unternehmens ab. Allgemein gilt jedoch, dass Bereinigung und Standardisierung am besten funktionieren, wenn die Prozesse automatisiert sind. Durch den Einsatz von Tools zur Unterstützung der Datenaufbereitung kann der gesamte Prozess kontaktlos erfolgen. So können sich die IT-Mitarbeiter auf ausgewählte Ereignisse konzentrieren, anstatt jeden eingehenden Datensatz manuell zu bearbeiten. Low-Code- und No-Code-Tools können die Umwandlung vereinfachen, während benutzerdefinierte Skripte und Code den Prozess flexibler gestalten können.
Ihre Integrationsmethode spielt eine wichtige Rolle bei der Definition Ihrer gesamten IT-Datenstruktur. Deshalb ist es wichtig, Ihre Ressourcen und Ihre Geschäftsziele auf die gewählte Methode abzustimmen. Dazu gehört auch die Entscheidung, ob Sie ein System mit kontinuierlicher Integration oder mit periodischen Aktualisierungen in bestimmten Abständen aufbauen möchten. Im Folgenden werden einige der gängigsten Datenintegrationsmethoden beschrieben:
Zwar kann selbst die Implementierung eines gut ausgearbeiteten Datenintegrationsplans ein aufwändiger und komplizierter Prozess sein, doch mit einem methodischen Ansatz wird sich die Investition langfristig auszahlen und Ihr Unternehmen für eine skalierbare Zukunft rüsten.
Der Prozess beginnt mit der Identifizierung Ihrer Datenelemente und Datenquellen, um dann die Beziehungen zwischen ihnen abzubilden. Was überschneidet sich eindeutig? Wo sind Spalten und Definitionen unterschiedlich? Und was muss getan werden, um sie anzupassen?
Von hier aus werden Sie ein Modell für die Datenumwandlung erstellen. Je nach Bedarf und verfügbaren Ressourcen können Sie benutzerdefinierte Skripte, vorgefertigte Branchentools oder eine Kombination von beiden verwenden. Ziel ist es, Daten in ein gemeinsames Format umzuwandeln und zusammenzuführen sowie etwaige Konflikte zwischen Datenquellen zu lösen, vorzugsweise in einer systemischen Weise. Dadurch sollen der Prozess wiederholbar gemacht und der Arbeitsaufwand für die Datenkonsumenten begrenzt werden.
Während dieses Prozesses stehen den Data Curators und Data Engineers eine Reihe von Integrationstools und -technologien zur Verfügung. Dazu gehören auch ETL-Tools, die in drei Hauptphasen arbeiten.
Es gibt eine Reihe von ETL-Tools für verschiedene Formate und Plattformen. Neben herkömmlichen ETL-Softwareanwendungen ermöglichen cloudbasierte ETL-Tools einen flexiblen Zugriff, da sie unterschiedliche Quellen und Repositories leichter verbinden können. Vorausgesetzt, Sie verfügen über die richtigen IT-Kenntnisse, können Open-Source-ETL-Tools robuste Funktionen zu geringen Anfangskosten bieten. Allerdings sind sie möglicherweise nicht auf dem gleichen Stand in Bezug auf die Entwicklung von Funktionen, Sicherheit oder Qualitätssicherung wie kommerzielle Produkte, was zu einem späteren Zeitpunkt weitere Investitionen in Ressourcen erfordern kann. Zwar sind auch benutzerdefinierte ETL-Tools verfügbar, doch sind diese oft mit hohen Anschaffungskosten verbunden.
Woher wissen Sie, welches ETL-Tool das richtige für Ihr Unternehmen ist? Zu den zu berücksichtigenden Faktoren gehören die unterstützten Konnektortypen, der Grad der Anpassungsmöglichkeiten, die Leistungs- und Ressourcenanforderungen sowie die Gesamtkosten einschließlich Fachwissen und unterstützender Infrastruktur. Vor allem aber sollten ETL-Tools auf ihre Automatisierungsfähigkeiten geprüft werden, denn die Automatisierung ist ein entscheidender Bestandteil der systemischen Datentransformationen, die letztlich zu einer Selfservice-Datenanalyse führen.
Die Qualität eines Datensatzes bezieht sich auf seine Vollständigkeit, Genauigkeit, Aktualität und Konformität mit Standards. Die Bedeutung der Datenqualität bei integrierten Daten kann gar nicht hoch genug eingeschätzt werden. Ein hochwertiger Datensatz erfordert weit weniger Aufwand zur Vorbereitung für die Integration. Dies ist einerseits aus ressourcentechnischer Sicht wichtig, andererseits hat die Datenqualität aber auch einen erheblichen Einfluss auf das Ergebnis. Wenn eine Organisation beispielsweise vier signifikante Ziffern in ihren Berechnungen verwendet, eine externe Quelle jedoch Daten mit nur zwei signifikanten Ziffern liefert, entsprechen diese Daten nicht dem erwarteten Qualitätsniveau. Wenn diese Daten verwendet werden, kann die daraus resultierende Analyse fehlerhafte Erkenntnisse enthalten.
Daher sind qualitativ hochwertige Daten in integrierten Daten absolut entscheidend, um den Aufwand für die Umwandlung/Bereinigung zu minimieren und die Genauigkeit der Ausgabe zu gewährleisten.
Datenqualität messen und erhalten: Zahlreiche Methoden sind hilfreich, um eine hohe Datenqualität zu gewährleisten.
Sobald die Daten in einem Repository konsolidiert sind, ist Ihr Unternehmen bereit für den nächsten Schritt: Selfservice-Analysen. Oracle Analytics bietet vollständige Selfservice-Analysen in einer intuitiven Benutzeroberfläche, die für alle Benutzer geeignet ist – von Geschäftsnutzern bis hin zu Data Scientists. Oracle Analytics ist in der Cloud, On-Premises oder als Hybridimplementierung verfügbar und nutzt maschinelles Lernen und künstliche Intelligenz, um verborgene Erkenntnisse aufzudecken und sofortige Visualisierungen zu erstellen. Oracle Analytics Cloud jetzt kostenlos testen – mit Oracle Cloud Free Tier.
Der Hauptvorteil der Integration von Daten aus verschiedenen Bezugsquellen, wie z. B. demografische Daten von Kunden, Verkaufszahlen und Markttrends, besteht darin, dass die Mitarbeiter ein umfassenderes Verständnis für jedes beliebige Geschäftsproblem oder jede Geschäftschance erhalten. Wenn Sie es richtig anstellen, können Sie wertvolle Erkenntnisse und Muster aufdecken, die bei einer isolierten Analyse der einzelnen Datenquellen möglicherweise nie zum Vorschein gekommen wären. Die möglichen Vorteile: Fundiertere Entscheidungen, effektivere Strategien, bessere Kontrolle der Datenqualität, verbesserte betriebliche Effizienz und ein Wettbewerbsvorteil in der heutigen datengesteuerten Unternehmenslandschaft.
Unternehmen trainieren KI anhand verschiedener Daten, um sie für ihre Zwecke einzusetzen. Sobald CIOs die Datenintegration gemeistert haben, ist es an der Zeit, ein KI-Programm zu starten, das sich diese Bemühungen zunutze macht.
Welche Faktoren sollte ich bei der Auswahl der Datenquellen für die Integration berücksichtigen?
Die beiden wichtigsten Faktoren bei der Planung der Datenintegration sind: Erstens, zu wissen, welche Ressourcen Ihnen zur Verfügung stehen und stehen werden, und zweitens, zu wissen, welche Geschäftsziele Sie verfolgen. Von dort aus können Sie dann Datenquellen ermitteln, die Ihrer Strategie dienen, und bestimmen, ob es realistisch ist, auf sie zuzugreifen.
Was sind einige Best Practices für die Integration von Daten aus mehreren Bezugsquellen?
Obwohl viele Strategien für die Datenintegration auf den individuellen Bedürfnissen des Unternehmens basieren, gibt es einige allgemein gültige Best Practices, wie zum Beispiel die folgenden:
Welche Beispiele gibt es für Anwendungsfälle für die Integration von Daten aus mehreren Quellen?
Hier sind zwei Beispiele aus der Praxis für die Integration von Daten aus verschiedenen Quellen. Betrachten wir zunächst eine Smartphone-Anwendung, die ständig Nutzungsdaten an eine Cloud überträgt. Diese wird mit zwei verwandten Datensätzen – einer E-Mail-Marketingkampagne und Verkaufsdaten – abgeglichen. Eine einheitliche Ansicht kann tiefere Einblicke in das Zusammenspiel von Nutzung, Marketing und Einkäufen liefern. Als Nächstes betrachten wir ein medizinisches IoT-Gerät, das Aufzeichnungen an ein Patientenkonto überträgt. Diese Daten werden einem Arzt sofort zur Verfügung gestellt, der auch Zugang zu den Patientenakten hat, um Verbesserungen oder Anpassungen zu überwachen.
Warum müssen wir mehrere Datenquellen integrieren?
Mit der zunehmenden Menge und Vielfalt der Datenquellen hat sich die Konsolidierung von Datensätzen von einer „nützlichen Option“ zu einer geschäftlichen Notwendigkeit entwickelt. Heutzutage gibt es kaum noch einen Vorgang, der nicht von der Datenintegration profitiert. Die Kunst besteht jedoch darin, eine Strategie umzusetzen, die für das Unternehmen geeignet ist.
Was versteht man unter der Kombination von Daten aus verschiedenen Bezugsquellen?
Erfolgt die Zusammenführung von Datenquellen mit systematischen Datenaufbereitungsschritten, wird dieser Vorgang als Datenintegration bezeichnet. Werden die Datenquellen ohne diese Umwandlung/Bereinigung kombiniert, sodass diese Schritte im Nachhinein erforderlich sind, spricht man von Data Joining oder Data Blending.