Integration von Daten aus mehreren Bezugsquellen

Michael Chen | Content Strategist | 4. Januar 2024

Datenquellen sind in der digitalen Geschäftswelt allgegenwärtig: Internet of Things (IoT)-Geräte, die Nutzerbasis einer App in einem ERP-System und Kundendienstanfragen in CRM-Software. Wie können Unternehmen bei einer so großen Menge an Daten, die ständig einströmen, die benötigten Informationen herausfiltern? Tools wie Analyseplattformen können zwar Erkenntnisse liefern, aber nur, wenn die Datensätze so integriert sind, dass Zusammenhänge hergestellt werden können. Andernfalls müssen die Nutzer Tabellen manuell bearbeiten, was Zeit kostet, mühsam ist und das Risiko birgt, durch veraltete, fehlerhafte oder doppelte Daten vom Kurs abzukommen.

Der technische Fortschritt hat den Prozess der Datenzusammenführung, -speicherung und -bereitstellung für Geschäftsnutzer vereinfacht. Der erste Schritt: Daten aus mehreren Quellen integrieren. Das ist der Schlüssel zu einer datengesteuerten Organisation und eröffnet eine Reihe von Möglichkeiten für Selfservice-Analysen und Business Intelligence. Nutzer, die in der Lage sind, selbst Abfragen zu erstellen, können zu erstaunlichen Erkenntnissen gelangen.

Um dieses Stadium zu erreichen, bedarf es jedoch einer Datenintegrationsstrategie, einer Infrastruktur, die in der Lage ist, Verbindungen zwischen mehreren Quellen effektiv zu unterstützen, und eines Data Lake oder Data Warehouse.

Was versteht man unter Datenintegration?

Datenintegration, Data Blending und Data Joining beginnen alle mit demselben Schritt: der Kombination mehrerer Datenquellen. Die Techniken unterscheiden sich durch den Grad der Standardisierung von Definitionen und Nomenklatur und dadurch, an welcher Stelle des Prozesses Transformationen stattfinden. Bei der Entscheidung, welche Methode verwendet werden soll, sollten Sie sich Fragen stellen wie: Entspricht der extrahierte Datensatz Ihren internen Standards, oder muss er stark umgewandelt werden? Erzeugt die Bezugsquelle regelmäßig Duplikate oder andere Probleme, die eine Datenbereinigung erfordern?

Wenn Sie die Qualität Ihrer Datenquellen verstehen, kann Ihr Unternehmen seinen Datenzielen näher kommen.

Datenintegration, Data Joining und Data Blending

Datenintegration, Data Joining und Data Blending sind drei Begriffe, die im modernen IT-Jargon häufig verwendet werden. Sie werden auch oft verwechselt, weil die Unterschiede zwischen ihnen sehr subtil sind. Einige allgemein gültige Faktoren: Unabhängig davon, ob die Datenumwandlung vor oder nach dem Laden in ein Repository erfolgt, ist dies oft der mühsamste und arbeitsintensivste Schritt im Prozess. Daher sollten Sie so viel wie möglich automatisieren.

Hier sind die grundlegenden Definitionen und deren Vergleich.

  • Datenintegration: Die systematische, umfassende Konsolidierung mehrerer Datenquellen unter Verwendung eines etablierten Prozesses, der Daten bereinigt und verfeinert, oft in ein standardisiertes Format. Wenn diese Bereinigung abgeschlossen ist, werden die Daten in ein Repository geladen, beispielsweise in einen Data Lake oder ein Data Warehouse. Transformation und Integration werden oft von Datenkuratoren, Data Scientists oder anderen IT-Mitarbeitern durchgeführt.
  • Data Blending: Der Prozess der Kombination mehrerer Datensätze zu einem einzigen Datensatz für die Analyse. Anders als bei der Datenintegration werden beim Data Blending jedoch häufig native Daten – d. h. Daten, die nicht umgewandelt oder bereinigt wurden – aus verschiedenen Quellen kombiniert. Ein HR-Team verwendet beispielsweise Data Blending, wenn es die internen Einstellungskennzahlen des aktuellen Quartals mit einem Open-Source-Datensatz der Regierung über Einstellungstrends kombiniert. Anders als bei der Datenintegration muss der Benutzer bei diesem Beispiel die Daten nach der Zusammenführung bereinigen und standardisieren.
  • Data Joining: Wie beim Data Blending geht es beim Data Joining um die Kombination mehrerer Datensätze. Der größte Unterschied zum Data Blending besteht darin, dass Data Joining voraussetzt, dass die Datensätze aus derselben Quelle stammen oder zumindest eine gewisse Überschneidung der Spalten und Definitionen aufweisen. Um das obige Beispiel aus dem Personalwesen weiter auszuführen, werden Daten zusammengeführt, wenn der Personalverantwortliche die von der Regierung zur Verfügung gestellten nationalen Einstellungskennzahlen aus dem aktuellen Quartal nimmt und dann zum Vergleich auch die vierteljährlichen Daten von vor vier Jahren herunterlädt. Diese Datensätze stammen aus demselben System und verwenden dasselbe Format, müssen aber auf der Grundlage bestimmter Datenbereiche zusammengeführt werden. Diese zusammengeführten Daten können dann weiter zu einem internen HR-Datensatz zusammengeführt werden, der dann bereinigt und standardisiert werden muss.

Wichtige Unterschiede

In der folgenden Tabelle werden die Unterschiede zwischen Datenintegration, Data Blending und Data Joining aufgeschlüsselt.

Datenintegration Data Blending Data Joining
Werden mehrere Quellen kombiniert? Ja Ja Ja
Üblicherweise von der IT-Abteilung oder vom Benutzer gehandhabt? IT Benutzer Benutzer
Werden die Daten vor der Ausgabe bereinigt? Ja Nein Nein
Ist nach der Ausgabe eine Bereinigung erforderlich? Nein Ja Ja
Empfehlen Sie die Verwendung derselben Quelle? Nein Nein Ja
Extrahieren/Laden/Transformieren oder Extrahieren/Transformieren/Laden? Extrahieren/Transformieren/Laden Extrahieren/Transformieren/Laden Extrahieren/Transformieren/Laden

Wichtige Erkenntnisse

  • Überprüfen Sie Datenquellen unter Berücksichtigung Ihrer Ziele. Auch wenn Sie die Qualität der Quellen in der Welt der Big Data nicht immer kontrollieren können, gibt es trotzdem Schritte, die die Integration erleichtern.
  • Automatisieren Sie einen möglichst großen Teil des Prozesses. Wenn Daten in hoher Frequenz aus Quellen abgerufen werden, sind Tools und Skripte für die Integrationsbemühungen Ihres Unternehmens von großem Nutzen.
  • Um zu entscheiden, welche Datenintegrationsmethode für Ihr Unternehmen am besten geeignet ist, sollten Sie alle beteiligten Variablen (Quellen, Hardware, Volumen) auflisten.
  • Optimieren Sie Ihre Arbeitsabläufe und Standards kontinuierlich. Eine erfolgreiche Datenintegration erfordert eine kontinuierliche Prozessverbesserung.

Integration von Daten aus mehreren Bezugsquellen erklärt

Tools entwickeln sich ständig weiter, Datenquellen werden umfangreicher, und die Möglichkeiten nehmen zu. Dadurch ergeben sich ständig neue Möglichkeiten, die Datenintegrations-Workflows zu verfeinern und robustere und effizientere Prozesse einzuführen.

Obwohl jedes Unternehmen seine eigenen spezifischen Anforderungen hat, folgt die Datenintegration im Allgemeinen einem Standardprozess.

  1. Es wird ein Bedarf an kombinierten Daten festgestellt, der sich entweder aus einer Anfrage eines Nutzers oder einer Entscheidung des Unternehmens ergibt. Dazu gehören häufig Parameter wie Datumsbereiche und andere einschränkende Faktoren.
  2. Es werden relevante Quellen ermittelt und die spezifischen Daten, die aus diesen Quellen benötigt werden, angegeben.
  3. Die Daten werden aus den Bezugsquellen im nativen Format extrahiert und zu einem Datensatz kombiniert.

In dieser Phase kann der kombinierte Datensatz dem Antragsteller zur Verfügung gestellt werden, um ihn manuell zu bereinigen und zu analysieren. Alternativ können die Daten von einem Data Scientist oder Data Curator normalisiert werden, bevor sie dem Unternehmen bereitgestellt werden. Unabhängig davon, wie die Daten dorthin gelangen, sind in der Regel zusätzliche Prozesse erforderlich, um eine einheitliche Nomenklatur zwischen den Spalten zu gewährleisten, doppelte Daten zu entfernen, ungenaue oder fehlerhafte Daten zu korrigieren, unvollständige Datensätze zu berichtigen und andere Aufgaben zu erledigen.

Wenn diese Aufgaben abgeschlossen sind, können die Daten in Analyseanwendungen, Business Intelligence-Systeme oder sogar einfach in eine Excel-Datei geladen werden, damit der Endnutzer sie analysieren und bearbeiten kann, um Erkenntnisse und Visualisierungen zu gewinnen.

Ein Ziel der IT-Abteilungen sollte es sein, die Effizienz dieses Prozesses zu maximieren. Dazu müssen automatisierte Umwandlungen geplant werden, die den manuellen Arbeitsaufwand minimieren. Der Weg dorthin hängt jedoch von vielen Variablen ab: woher die Datenquellen kommen, ob diese Quellen geprüft werden, welche Felder priorisiert werden, ob es etablierte Datenregeln gibt und welche Arten von Workflows vorhanden sind.

Die größtmögliche Automatisierung des Datenbereinigungsprozesses kann bei der Verwendung mehrerer Datenquellen der wichtigste Teil sein, da sie eine Selfservice-Umgebung ermöglicht, die die Daten schneller in die Hände der Benutzer bringt.

Die Bedeutung der Integration von Daten aus verschiedenen Datenquellen

Falls Ihnen der Aufbau eines Datenintegrationsprozesses als sehr aufwändig erscheint, dann liegt das daran, dass er es auch wirklich ist. Ein reibungsloser Datenintegrationsprozess – von der Überprüfung der Bezugsquellen bis zur Ausarbeitung und Optimierung eines Datenbereinigungs-Workflows – erfordert Sorgfalt und Planung. Der Nutzen wird jedoch schnell deutlich.

Im Geschäftsleben war Zeit schon immer gleichbedeutend mit Geld. Im Zeitalter von Big Data, in dem Echtzeitinformationen von Lieferanten und Kunden aus aller Welt einfließen, steigt die Bedeutung dieser einfachen Formel allerdings exponentiell. Die Umstände ändern sich schnell, und die Höhen und Tiefen des Geschäftslebens sind oft unvorhersehbar. Liegen Daten in Silos vor, haben Geschäftsbereiche, die neue Informationen analysieren oder Innovationsmöglichkeiten erkunden wollen, oft das Gefühl, mehrere Schritte hinterher zu sein. Die Wahrheit ist, es fühlt sich so an, weil sie es wirklich sind. Wenn Geschäftseinheiten für Datenextrakte und Analyseberichte auf andere Teams angewiesen sind, kommt es zu Verzögerungen.

Letztendlich sind Informationen nur dann wertvoll, wenn sie kontinuierlich fließen.

Die Integration von Daten aus verschiedenen Bezugsquellen beseitigt viele manuelle Hürden. Dadurch wiederum öffnet sich die Tür zu einer breiteren Palette von Datenquellen, um verborgene Erkenntnisse aufzudecken und wahrhaft datengesteuerte Entscheidungen zu treffen. So werden die Fähigkeiten und die Effizienz der Mitarbeiter gesteigert, was sich wiederum positiv auf die Innovationskraft und die Chancen des Unternehmens auswirkt. Die Integration verschiedener Datenquellen ermöglicht es Unternehmen, neue Ideen und Lösungen zu finden, schnell zu reagieren und der Konkurrenz stets einen Schritt voraus zu sein.

Vorteile und Herausforderungen der Datenintegration

Eine erfolgreiche Datenintegration sichert Organisationen jetzt und in Zukunft einen Wettbewerbsvorteil, insbesondere angesichts der zunehmenden Datenvielfalt. Um dieses Ziel zu erreichen, bedarf es jedoch einer Kombination aus technischer Konfiguration und organisatorischem Verständnis. Indem sie sich diesen Herausforderungen stellen, können Organisationen die Art und Weise verändern, wie Entscheidungen in den Bereichen Betrieb, Vertrieb, Finanzen, Fertigung und in nahezu allen anderen Abteilungen getroffen werden.

Hier finden Sie einige Vorteile und Hürden, die für eine erfolgreiche Datenintegration überwunden werden müssen.

Vorteile

  • Einheitliche Daten. Durch die Zusammenführung der Daten in einem einzigen Datenspeicher wird der gesamte Datenerfassungsprozess vereinfacht und beschleunigt. Anstatt verschiedene Gruppen mit unterschiedlichen Datenquellen arbeiten zu lassen, sorgt eine einzige, einheitliche Ansicht für eine bessere organisatorische Abstimmung und reduziert gleichzeitig den Aufwand für die Beschaffung und Verarbeitung der Daten.
  • Verbesserte Zusammenarbeit. Aufgrund der Art und Weise, wie Daten traditionell gespeichert werden, arbeiten verschiedene Gruppen möglicherweise mit veralteten oder leicht unterschiedlichen Versionen eines Datensatzes. Die Verwendung unterschiedlicher Definitionen oder Nomenklaturen kann Verwirrung stiften oder zu falschen Schlussfolgerungen führen. Durch die Vereinheitlichung von Daten können alle Gruppen mit denselben Informationen arbeiten.
  • Rationalisierte Abläufe. Wenn die gemeinsame Nutzung von Daten nur mit manuellen Anfragen und Aufbereitungen erfolgt, verlangsamt sich die Arbeit. Die operativen Teams profitieren von rationalisierten Prozessen, zentralisierten Daten und weniger manuellen Schritten.
  • Zeitersparnis. Neben der Rationalisierung der Abläufe entfällt durch die Konsolidierung mehrerer Quellen der praktische Schritt der manuellen Datenübertragung von Gruppe zu Gruppe. Verzögerungen können auftreten, wenn benachbarte Gruppen, wie z. B. Vertrieb und Marketing, überlappende Datenanforderungen haben oder wenn nachgeschaltete Teilnehmer in einem Workflow Datensätze anfordern müssen.
  • Weniger manuelle Fehler. Die Beseitigung manueller Schritte aus den Prozessen erhöht die Effizienz, verringert aber auch das Gesamtrisiko. Weniger manuelle Schritte bedeuten weniger Fehlerquellen (z. B. falsche Datensätze versenden oder fehlende Datensätze beim Kopieren/Einfügen).
  • Verbesserte Vorhersageanalyse. Je mehr Datenquellen den Analyseplattformen zur Verfügung stehen, desto besser. Die Konsolidierung von Datenquellen erweitert die Analysemöglichkeiten und fördert die Kreativität und Innovation. Das hat den unmittelbaren Vorteil, dass mehr Benutzer die Kontrolle über Geschäftsanalysen übernehmen, sowie den langfristigen Vorteil, eine datengesteuerte Kultur aufzubauen.

Herausforderungen

  • Datenkompatibilität. Daten, die aus unterschiedlichen Quellen stammen, werden mit großer Wahrscheinlichkeit unterschiedliche Definitionen und Nomenklaturen verwenden. Der Prozess zur Bereinigung dieser Daten wird als Datentransformation bezeichnet und kann je nach Zustand der ursprünglichen Quellen schwerfällig und komplex sein, wenn keine systematischen Prozesse vorhanden sind.
  • Datensilos. Abteilungen wie Vertrieb, Marketing, Finanzen und Personalwesen verfolgen alle Daten für ihren eigenen internen Bedarf. Wenn Daten derart abgeschottet sind, müssen die Gruppen den Zugang manuell beantragen, und selbst wenn sie ihn dann erhalten, können Nomenklatur und Definitionen variieren, was die Kompatibilität weiter erschwert.
  • Datenqualität. Qualitativ hochwertige Daten ermöglichen eine Kultur der genauen, datengestützten Erkenntnisse. Um dieses Ziel zu erreichen, müssen Unternehmen Standards und Prozesse zur Gewährleistung der Datenqualität einführen. Genauigkeit, Vollständigkeit und Aktualisierungsrhythmus (bei regelmäßigen Aktualisierungen) müssen Teil der Diskussion sein. Die Verbesserung der abteilungsübergreifenden Entscheidungsfindung erfordert eine Kombination aus IT-Infrastruktur, Gruppenarbeitsabläufen und der Bereitschaft des Einzelnen, Standards einzuhalten.
  • Altsysteme. Die Daten werden von einer Vielzahl von Systemen erzeugt, zu denen auch Legacy-Tools gehören. Um diese Quellen sauber in ein konsolidiertes Repository zu integrieren, muss zunächst der Zustand des Outputs der Altsysteme bewertet und dann ermittelt werden, wie dieser kompatibel gemacht werden kann. Überspringen Sie diesen Schritt besser nicht, denn diese älteren Systeme enthalten oft wichtige Informationen, die nur in Ihrem Unternehmen vorhanden sind.
  • Nicht optimierte Daten. Bei der Datenoptimierung geht es darum, Analysevorgänge so effizient und kostengünstig wie möglich zu gestalten. Nicht optimierte Daten werden von den Quellen in ihrer ursprünglichen Form bereitgestellt und müssen vor der Verwendung in geeignete Werte und Datensätze umgewandelt werden. Ein OLAP-Tool kann diesen Prozess automatisieren.

Checkliste für die Vorintegration

Eine erfolgreiche Datenintegration erfordert eine solide Grundlage in verschiedenen Bereichen, darunter technischer Support, Geschäftsziele und Unternehmenskultur. Im Folgenden sind die drei wichtigsten Punkte aufgeführt, die vor dem Start einer Datenintegrationsinitiative geprüft werden sollten.

1. Bereitschaft aller Akteure

Um erfolgreich zu sein, benötigt eine Datenintegrationsstrategie eine geeignete Technologie, Teams zur Verwaltung der Quelldaten und der Dateneingabe, Geschäftsnutzer zum Herunterladen und effektiven Einsatz der konsolidierten Daten sowie eine Führungsebene, die die Budgets für das Projekt genehmigt. Jeder dieser Akteure ist von entscheidender Bedeutung. Ohne eine unternehmensweite Akzeptanz werden Strategien fehlgeleitet oder manchmal auch einfach begraben.

2. Abstimmung des Projekts mit den Unternehmenszielen

Unternehmen sollten den Grund für ihre Datenintegrationsprojekte festlegen. Geht es darum, Prozesse zu beschleunigen, die Datenanalyse zu verbessern, mehr datengestützte Erkenntnisse zu gewinnen, die Datengenauigkeit zu verbessern oder um eine Kombination all dieser Aspekte? Handelt es sich um eine spezielle Abteilung oder um eine umfassendere Initiative?

Durch die Festlegung spezifischer Ziele und Parameter können Unternehmen einen gezielteren und effektiveren Ansatz zur Erreichung ihrer Datenziele entwickeln.

3. Analyse Ihrer bestehenden Datenprozesse

Bevor Sie mit einem Datenintegrationsprojekt beginnen, sollten Sie die vorhandenen Systeme und Daten kennen, mit denen Sie arbeiten. Im optimalen Fall können die Daten einfach exportiert werden, und es gibt bereits eine abteilungsübergreifende Vereinbarung und Abstimmung über Formate und Standards. Was passiert aber, wenn sich Ziele, Prozesse oder native Datenformate zwischen den Abteilungen erheblich unterscheiden? Hier kommt das Executive-Sponsoring ins Spiel.

5 Schritte zur Integration von Daten aus mehreren Bezugsquellen

Die Integration von Daten aus mehreren Bezugsquellen erfolgt in mehreren Schritten. Während des gesamten Prozesses ist es jedoch wichtig, die Datenqualität und -integrität sowie die einschlägigen Vorschriften zur Datensicherheit und zum Datenschutz im Auge zu behalten. Und sobald die Daten integriert sind, sollten Sie für eine regelmäßige Überwachung und Wartung sorgen, um die Datenqualität und -integrität langfristig zu gewährleisten.

1. Bestimmung der zu integrierenden Datenquellen

Datenquellen liegen in vielen verschiedenen Formaten und an vielen verschiedenen Orten vor. Jedes Unternehmen verfügt über eine einzigartige Kombination von Datenquellen, wie zum Beispiel die folgenden:

  • Relationale Datenbanken: Datenintegrationsprozesse können direkt mit relationalen Datenbanken verbunden werden, die standardmäßige tabellarische Zeilen-/Spaltenstrukturen aufweisen.
  • Flat Files: Die meisten Datenbanken exportieren Datensätze in Flat Files, die als zweidimensionale Tabellen formatiert sind, die einen eigenständigen Kontext bieten, ohne dass ein Bezug zu anderen Tabellen erforderlich ist. Zu den gängigen Exportformaten gehören CSV und Delimited, die sich in der Regel leicht nach Bedarf umwandeln lassen.
  • XML und JSON: XML und JSON sind gängige Standards für die moderne Datenübertragung, insbesondere für das Internet und webbasierte Anwendungen. Aus technischer Sicht handelt es sich bei JSON um ein Datenformat und bei XML um eine Sprache. Diese Unterschiede bringen ihre eigenen spezifischen Überlegungen mit sich, z. B. die Frage, wie XML strukturiert ist, während JSON die Daten schneller parst. Für die Datenintegration ist es am wichtigsten zu wissen, dass Sie wahrscheinlich auf beides stoßen werden, wenn Sie Daten von Websites oder webbasierten Anwendungen übernehmen.
  • APIs: Anwendungsprogrammierschnittstellen (APIs) verbinden verschiedene Systeme und rufen Daten aus mehreren Quellen ab. APIs ermöglichen eine Echtzeit-Datenintegration und können an spezielle Integrationsanforderungen angepasst werden.
  • Cloudbasierte Datenquellen: Einige Datensätze sind frei verfügbar und werden über die Cloud aktualisiert. Diese Art von Messdaten stammt häufig aus Regierungs-, Bildungs- oder Forschungsquellen, in denen Daten für Forscher zur weiteren Untersuchung bereitgestellt werden.
  • Internet of Things-Geräte: IoT-Geräte sammeln ständig Informationen, manchmal Tausende von Datenpunkten täglich. Beispiele für IoT-Geräte sind medizinische Geräte, die kontinuierlich Patientendaten übertragen, intelligente Haushaltsgeräte und industrielle IoT-Geräte (IioT), die Fabriken und Smart Citys steuern. Daten von IoT-Geräten werden häufig in die Cloud hochgeladen, um von anderen Systemen genutzt zu werden.

Unabhängig vom Format und anderen Variablen ist es am wichtigsten, Datenquellen zu identifizieren und auszuwählen, die zur Erreichung der Geschäftsziele beitragen, und dann zu prüfen, wie sie am besten integriert werden können.

2. Vorbereiten der Daten für die Integration

Sobald Sie Ihre Datenquellen identifiziert haben, ist es an der Zeit zu prüfen, wie deren Datensätze formatiert und definiert sind. Es gibt zwei wichtige Vorbereitungsschritte.

  • Datenbereinigung: Datensätze können unvollständige oder doppelte Datensätze, fehlerhafte Abschnitte oder andere Probleme enthalten. Bei der Datenbereinigung wird der Datensatz gesäubert, um einen vollständigen und verwertbaren Datenbestand zu erhalten.
  • Standardisierung: Durch die Bereinigung von Daten werden zwar problematische Datensätze entfernt, das Problem der Standardisierung wird dadurch jedoch nicht gelöst. Bei der Integration von Daten verläuft der Prozess am reibungslosesten. Die Ergebnisse sind dann am besten, wenn Standardregeln – einschließlich Datumsformatierung, Taxonomie und Metadatenfelder – definiert und angewendet werden. Bevor Sie mit der Integration beginnen, sollten Sie dafür sorgen, dass die Aufzeichnungen so weit wie möglich den Standards entsprechen. Dadurch wird der Arbeitsaufwand im weiteren Verlauf minimiert und gleichzeitig die Aktualität und Genauigkeit erhöht.
  • Umwandlungstechniken: Für die Datenumwandlung können Sie eine Reihe von Techniken und Praktiken anwenden. Dazu gehören die Datenglättung (Data Smoothing), d. h. die algorithmische Verringerung von Störungen innerhalb eines Datensatzes, die Datennormalisierung, d. h. die Skalierung von Daten in einem praktikablen Bereich, die Datengeneralisierung, d. h. die Erstellung einer Hierarchie zwischen Feldern, und die Datenmanipulation, d. h. die Identifizierung von Mustern zur Erstellung brauchbarer Formate.

Was am besten funktioniert, hängt schließlich vom Zustand der einzelnen Datensätze und den Zielen Ihres Unternehmens ab. Allgemein gilt jedoch, dass Bereinigung und Standardisierung am besten funktionieren, wenn die Prozesse automatisiert sind. Durch den Einsatz von Tools zur Unterstützung der Datenaufbereitung kann der gesamte Prozess kontaktlos erfolgen. So können sich die IT-Mitarbeiter auf ausgewählte Ereignisse konzentrieren, anstatt jeden eingehenden Datensatz manuell zu bearbeiten. Low-Code- und No-Code-Tools können die Umwandlung vereinfachen, während benutzerdefinierte Skripte und Code den Prozess flexibler gestalten können.

3. Auswahl einer Datenintegrationsmethode

Ihre Integrationsmethode spielt eine wichtige Rolle bei der Definition Ihrer gesamten IT-Datenstruktur. Deshalb ist es wichtig, Ihre Ressourcen und Ihre Geschäftsziele auf die gewählte Methode abzustimmen. Dazu gehört auch die Entscheidung, ob Sie ein System mit kontinuierlicher Integration oder mit periodischen Aktualisierungen in bestimmten Abständen aufbauen möchten. Im Folgenden werden einige der gängigsten Datenintegrationsmethoden beschrieben:

  • Manuell: Manuelle Datenintegration bedeutet nicht, dass sich jemand physisch durch jedes Datenfeld klickt. Allerdings ist es erforderlich, dass jemand einen Code schreibt, um jeden Schritt des Prozesses durchzuführen. Es ist zwar mühsam und zeitaufwändig, aber es gibt Situationen, in denen die manuelle Integration aufgrund der Qualität der Quellen oder der organisatorischen Ressourcen die beste Option ist.
  • Extrahieren/Transformieren/Laden (ETL): ETL-Prozesse verarbeiten die Transformation, bevor Daten in ein Repository geladen werden. ETL ist am effektivsten, wenn systemische Transformationsstandards vorhanden und in der Lage sind, Datensätze zu verarbeiten, bevor sie in einen Data Lake oder ein Data Warehouse aufgenommen werden.
  • Extrahieren/Laden/Transformieren (ELT): ELT-Prozesse verarbeiten die Datentransformation nach dem Laden in ein Repository. Aus diesem Grund werden Datensätze, die ELT verwenden, oft in ihrem ursprünglichen Format und nicht standardisiert bereitgestellt. ELT wird verwendet, wenn keine systemische Transformation verfügbar ist, z. B. wenn ein Benutzer eine neue Quelle findet.
  • Change Data Capture (CDC): CDC ist ein Prozess, der den Ressourcenverbrauch reduziert und gleichzeitig die Datensätze auf dem neuesten Stand hält. CDC nimmt Änderungen an einem Datensatz auf und führt Aktualisierungen nahezu in Echtzeit durch, anstatt den gesamten Datensatz in regelmäßigen Abständen zu aktualisieren. Da Aktualisierungen einzeln und in kleinen, schnellen Stößen erfolgen, beeinträchtigt CDC die Betriebszeit der Datenbank nicht und führt auch nicht zu Spitzen in der Ressourcennutzung.
  • Datenreplikation: Bei der Datenreplikation wird eine Originalversion der Daten an der Quelle aufbewahrt und eine Kopie (Replikat) zur Verwendung durch Gruppen erstellt. Es kann sich bei dieser Kopie auch nur um einen Teil der Aufzeichnung handeln, z. B. um ausgewählte Spalten oder eine andere Untermenge, die für die Bearbeitung verwendet wird. Die Replikation kann die Ressourcen belasten, wenn zu viele Versionen über einen längeren Zeitraum aufbewahrt werden müssen.
  • Datenvirtualisierung: Bei der Datenvirtualisierung verbleiben alle Datensätze in ihren ursprünglichen Datenbanken. Transformation und Manipulation finden in einer virtuellen Layer statt, wobei die Föderation verwendet wird, um auf einzelne Datensätze zu verweisen, ohne sie tatsächlich in eine neue Datei zu ziehen.
  • Stream Data Integration (SDI): SDI fungiert als Echtzeitversion der ELT-Verarbeitung. Datenströme werden von Quellen gesendet und in Echtzeit umgewandelt, bevor sie an ein Repository gesendet werden. Das hat zwei wesentliche Vorteile. Erstens bleiben die Datensätze durch die kontinuierliche Aktualisierung der Datensätze immer auf dem neuesten Stand. Zweitens entfällt dadurch die Notwendigkeit, Datensätze in großem Umfang zu aktualisieren, wodurch sich die Ressourcennutzung stabilisiert. SDI stellt jedoch auch eine Herausforderung für die Infrastruktur im Hinblick auf die funktionale Unterstützung des Prozesses und die Qualifizierung der eingehenden Daten dar.

4. Umsetzung des Integrationsplans

Zwar kann selbst die Implementierung eines gut ausgearbeiteten Datenintegrationsplans ein aufwändiger und komplizierter Prozess sein, doch mit einem methodischen Ansatz wird sich die Investition langfristig auszahlen und Ihr Unternehmen für eine skalierbare Zukunft rüsten.

Der Prozess beginnt mit der Identifizierung Ihrer Datenelemente und Datenquellen, um dann die Beziehungen zwischen ihnen abzubilden. Was überschneidet sich eindeutig? Wo sind Spalten und Definitionen unterschiedlich? Und was muss getan werden, um sie anzupassen?

Von hier aus werden Sie ein Modell für die Datenumwandlung erstellen. Je nach Bedarf und verfügbaren Ressourcen können Sie benutzerdefinierte Skripte, vorgefertigte Branchentools oder eine Kombination von beiden verwenden. Ziel ist es, Daten in ein gemeinsames Format umzuwandeln und zusammenzuführen sowie etwaige Konflikte zwischen Datenquellen zu lösen, vorzugsweise in einer systemischen Weise. Dadurch sollen der Prozess wiederholbar gemacht und der Arbeitsaufwand für die Datenkonsumenten begrenzt werden.

Während dieses Prozesses stehen den Data Curators und Data Engineers eine Reihe von Integrationstools und -technologien zur Verfügung. Dazu gehören auch ETL-Tools, die in drei Hauptphasen arbeiten.

  • Extrahieren Sie Daten aus Datenquellen wie Smartphone-Apps, Datenbanken, Webanwendungen und Softwareanwendungen.
  • Transformieren Sie Daten aus Datenquellen, damit sie den internen Standards für Definitionen, Nomenklatur und Taxonomie entsprechen.
  • Laden Sie transformierte Daten in ein Data Warehouse, einen Data Lake oder ein anderes Repository, auf das Tools wie Business Intelligence oder Selfservice-Analysen zugreifen können.

Es gibt eine Reihe von ETL-Tools für verschiedene Formate und Plattformen. Neben herkömmlichen ETL-Softwareanwendungen ermöglichen cloudbasierte ETL-Tools einen flexiblen Zugriff, da sie unterschiedliche Quellen und Repositories leichter verbinden können. Vorausgesetzt, Sie verfügen über die richtigen IT-Kenntnisse, können Open-Source-ETL-Tools robuste Funktionen zu geringen Anfangskosten bieten. Allerdings sind sie möglicherweise nicht auf dem gleichen Stand in Bezug auf die Entwicklung von Funktionen, Sicherheit oder Qualitätssicherung wie kommerzielle Produkte, was zu einem späteren Zeitpunkt weitere Investitionen in Ressourcen erfordern kann. Zwar sind auch benutzerdefinierte ETL-Tools verfügbar, doch sind diese oft mit hohen Anschaffungskosten verbunden.

Woher wissen Sie, welches ETL-Tool das richtige für Ihr Unternehmen ist? Zu den zu berücksichtigenden Faktoren gehören die unterstützten Konnektortypen, der Grad der Anpassungsmöglichkeiten, die Leistungs- und Ressourcenanforderungen sowie die Gesamtkosten einschließlich Fachwissen und unterstützender Infrastruktur. Vor allem aber sollten ETL-Tools auf ihre Automatisierungsfähigkeiten geprüft werden, denn die Automatisierung ist ein entscheidender Bestandteil der systemischen Datentransformationen, die letztlich zu einer Selfservice-Datenanalyse führen.

5. Sicherstellung der Datenqualität

Die Qualität eines Datensatzes bezieht sich auf seine Vollständigkeit, Genauigkeit, Aktualität und Konformität mit Standards. Die Bedeutung der Datenqualität bei integrierten Daten kann gar nicht hoch genug eingeschätzt werden. Ein hochwertiger Datensatz erfordert weit weniger Aufwand zur Vorbereitung für die Integration. Dies ist einerseits aus ressourcentechnischer Sicht wichtig, andererseits hat die Datenqualität aber auch einen erheblichen Einfluss auf das Ergebnis. Wenn eine Organisation beispielsweise vier signifikante Ziffern in ihren Berechnungen verwendet, eine externe Quelle jedoch Daten mit nur zwei signifikanten Ziffern liefert, entsprechen diese Daten nicht dem erwarteten Qualitätsniveau. Wenn diese Daten verwendet werden, kann die daraus resultierende Analyse fehlerhafte Erkenntnisse enthalten.

Daher sind qualitativ hochwertige Daten in integrierten Daten absolut entscheidend, um den Aufwand für die Umwandlung/Bereinigung zu minimieren und die Genauigkeit der Ausgabe zu gewährleisten.

Datenqualität messen und erhalten: Zahlreiche Methoden sind hilfreich, um eine hohe Datenqualität zu gewährleisten.

  • Data Profiling: Hochwertige Analyse der Quelldaten, um Qualität, Vollständigkeit, Genauigkeit und andere Elemente zu prüfen und Zusammenfassungen zu erstellen.
  • Datenstandardisierung: Der Prozess der Erstellung von Standards für Format, Definitionen, Nomenklatur und andere Elemente, um sicherzustellen, dass Daten vollständig mit anderen Datensätzen innerhalb einer Organisation kompatibel sind. Wenn die Daten nicht den Standards entsprechen, müssen sie entsprechend umgewandelt werden.
  • Datenbereinigung: Bereinigung eines Datensatzes, um doppelte, leere, ungenaue oder beschädigte Einträge zu korrigieren und zu entfernen, damit die Datensätze für die Verarbeitung bereit sind.
  • Datenabgleich: Dabei werden Daten aus verschiedenen Datensätzen abgeglichen, um zu überprüfen, ob sie dasselbe Thema widerspiegeln, während doppelte Daten zur Entfernung markiert werden.
  • Datenvalidierung: Überprüfung der Richtigkeit und Qualität der Daten, indem anhand einer Reihe von Prüfungen und Parametern kontrolliert wird, ob sie den vorgegebenen Regeln entsprechen.
  • Data Governance: Der Prozess der Überwachung von Daten, um sicherzustellen, dass die Speicherung, die Sicherheit, die Erfassung und andere Aufgaben den von der Organisation festgelegten Standards und Prinzipien sowie den geltenden Vorschriften entsprechen.
  • Ständige Überwachung: Einsatz verschiedener Tools zur kontinuierlichen Überprüfung der Datenqualität anhand interner Standards und Governance-Kriterien.

Datenintegration aus mehreren Bezugsquellen mit Oracle Analytics leicht gemacht

Sobald die Daten in einem Repository konsolidiert sind, ist Ihr Unternehmen bereit für den nächsten Schritt: Selfservice-Analysen. Oracle Analytics bietet vollständige Selfservice-Analysen in einer intuitiven Benutzeroberfläche, die für alle Benutzer geeignet ist – von Geschäftsnutzern bis hin zu Data Scientists. Oracle Analytics ist in der Cloud, On-Premises oder als Hybridimplementierung verfügbar und nutzt maschinelles Lernen und künstliche Intelligenz, um verborgene Erkenntnisse aufzudecken und sofortige Visualisierungen zu erstellen. Oracle Analytics Cloud jetzt kostenlos testen – mit Oracle Cloud Free Tier.

Der Hauptvorteil der Integration von Daten aus verschiedenen Bezugsquellen, wie z. B. demografische Daten von Kunden, Verkaufszahlen und Markttrends, besteht darin, dass die Mitarbeiter ein umfassenderes Verständnis für jedes beliebige Geschäftsproblem oder jede Geschäftschance erhalten. Wenn Sie es richtig anstellen, können Sie wertvolle Erkenntnisse und Muster aufdecken, die bei einer isolierten Analyse der einzelnen Datenquellen möglicherweise nie zum Vorschein gekommen wären. Die möglichen Vorteile: Fundiertere Entscheidungen, effektivere Strategien, bessere Kontrolle der Datenqualität, verbesserte betriebliche Effizienz und ein Wettbewerbsvorteil in der heutigen datengesteuerten Unternehmenslandschaft.

Unternehmen trainieren KI anhand verschiedener Daten, um sie für ihre Zwecke einzusetzen. Sobald CIOs die Datenintegration gemeistert haben, ist es an der Zeit, ein KI-Programm zu starten, das sich diese Bemühungen zunutze macht.

Datenintegration aus mehreren Bezugsquellen – Häufig gestellte Fragen

Welche Faktoren sollte ich bei der Auswahl der Datenquellen für die Integration berücksichtigen?

Die beiden wichtigsten Faktoren bei der Planung der Datenintegration sind: Erstens, zu wissen, welche Ressourcen Ihnen zur Verfügung stehen und stehen werden, und zweitens, zu wissen, welche Geschäftsziele Sie verfolgen. Von dort aus können Sie dann Datenquellen ermitteln, die Ihrer Strategie dienen, und bestimmen, ob es realistisch ist, auf sie zuzugreifen.

Was sind einige Best Practices für die Integration von Daten aus mehreren Bezugsquellen?

Obwohl viele Strategien für die Datenintegration auf den individuellen Bedürfnissen des Unternehmens basieren, gibt es einige allgemein gültige Best Practices, wie zum Beispiel die folgenden:

  • Den Zustand Ihrer Datenquellen hinsichtlich der Datenqualität verstehen
  • Ihre Unternehmensziele bei der Planung im Auge behalten
  • Ihre IT-Ressourcen und Budgets kennen
  • Die Abteilungen priorisieren, die am meisten von der Datenintegration profitieren können
  • Langfristige Expansion und Skalierbarkeit berücksichtigen

Welche Beispiele gibt es für Anwendungsfälle für die Integration von Daten aus mehreren Quellen?

Hier sind zwei Beispiele aus der Praxis für die Integration von Daten aus verschiedenen Quellen. Betrachten wir zunächst eine Smartphone-Anwendung, die ständig Nutzungsdaten an eine Cloud überträgt. Diese wird mit zwei verwandten Datensätzen – einer E-Mail-Marketingkampagne und Verkaufsdaten – abgeglichen. Eine einheitliche Ansicht kann tiefere Einblicke in das Zusammenspiel von Nutzung, Marketing und Einkäufen liefern. Als Nächstes betrachten wir ein medizinisches IoT-Gerät, das Aufzeichnungen an ein Patientenkonto überträgt. Diese Daten werden einem Arzt sofort zur Verfügung gestellt, der auch Zugang zu den Patientenakten hat, um Verbesserungen oder Anpassungen zu überwachen.

Warum müssen wir mehrere Datenquellen integrieren?

Mit der zunehmenden Menge und Vielfalt der Datenquellen hat sich die Konsolidierung von Datensätzen von einer „nützlichen Option“ zu einer geschäftlichen Notwendigkeit entwickelt. Heutzutage gibt es kaum noch einen Vorgang, der nicht von der Datenintegration profitiert. Die Kunst besteht jedoch darin, eine Strategie umzusetzen, die für das Unternehmen geeignet ist.

Was versteht man unter der Kombination von Daten aus verschiedenen Bezugsquellen?

Erfolgt die Zusammenführung von Datenquellen mit systematischen Datenaufbereitungsschritten, wird dieser Vorgang als Datenintegration bezeichnet. Werden die Datenquellen ohne diese Umwandlung/Bereinigung kombiniert, sodass diese Schritte im Nachhinein erforderlich sind, spricht man von Data Joining oder Data Blending.