Was ist ein Datenkatalog und warum benötigen Sie einen?

Einfach ausgedrückt ist ein Datenkatalog ein organisiertes Lager von Datenbeständen innerhalb des Unternehmens. Er nutzt Metadaten, um Unternehmen bei der Verwaltung ihrer Daten zu unterstützen. Er hilft Datenexperten auch dabei, Metadaten zu sammeln und zu organisieren sowie auf sie zuzugreifen und sie anzureichern, um die Datenerkennung und -verwaltung zu erleichtern.

Datenkatalog – Definition und Analogie

Wir haben oben einen Datenkatalog kurz als etwas definiert, das Metadaten verwendet, um Unternehmen bei der Verwaltung ihrer Daten zu helfen. Aber lassen Sie uns das mithilfe der Analogie einer Bibliothek noch etwas weiter ausführen.

Wenn Sie in eine Bibliothek gehen und ein Buch finden müssen, verwenden Sie den Katalog, um zu erfahren, ob das Buch vorhanden ist, um welche Ausgabe es sich handelt, wo es sich befindet und um eine Beschreibung zu erhalten – also alles Nötige, um zu entscheiden, ob Sie das Buch haben wollen und wie Sie es finden können.

Das bieten heute auch viele Objektspeicher, Datenbanken und Data Warehouses.

Aber gehen wir noch einmal zur Analogie der Bibliothek und ihres Katalogs zurück. Und jetzt erweitern Sie den Umfang dieses Katalogs auf sämtliche Bibliotheken im Land. Stellen Sie sich vor, Sie können über nur eine Schnittstelle umgehend jede einzelne Bibliothek im Land finden, die eine Kopie des gesuchten Buches enthält. Und zugleich erhalten Sie noch alle Detailinformationen, die Sie sich für jedes dieser Bücher nur wünschen könnten.

Das erledigt ein Datenkatalog für alle Ihre Unternehmensdaten. Er bietet Ihnen eine einheitliche, übergreifende Ansicht und eine tiefgehende Visibilität all Ihrer Daten – und nicht nur für jeden Datenspeicher einzeln.

Sie fragen sich vielleicht – warum sollte ich eine solche Ansicht benötigen?

Herausforderungen, die ein Datenkatalog bewältigen kann

Heutzutage stehen mehr Daten als je zuvor zur Verfügung. Dadurch wird es immer schwieriger auch die richtigen zu finden. Gleichzeitig gibt es auch immer mehr Regeln und Vorschriften – wobei die DSGVO nur eine von vielen ist.

Dadurch wird nicht nur der Datenzugriff zu einer Herausforderung. Die Daten-Governance stellt nun ebenfalls eine Herausforderung dar. Es ist von entscheidender Bedeutung zu verstehen, über welche Art von Daten Sie jetzt verfügen, wer diese verschiebt, wofür sie verwendet werden und wie sie geschützt werden müssen. Sie müssen jedoch auch vermeiden, zu viele Ebenen und Wrapper um Ihre Daten zu legen, denn Daten werden nutzlos, wenn ihre Verwendung zu umständlich wird.

Leider gibt es beim Finden und Zugreifen auf die richtigen Daten viele Herausforderungen. Dazu gehören:

  • Der Zeit- und Arbeitsaufwand beim Auffinden und Zugreifen auf die Daten
  • Data Lakes, die sich in Datensümpfe verwandeln
  • Kein gemeinsames Geschäftsvokabular
  • Eine schwer verständliche Struktur und Vielgestaltigkeit der „dunklen Daten“
  • Die Schwierigkeit, Herkunft, Qualität und Vertrauenswürdigkeit von Daten zu beurteilen
  • Keine Möglichkeit, Stammeswissen oder fehlendes Wissen zu erfassen
  • Die Schwierigkeit, Wissen und Datenbestände wiederzuverwenden
  • Manuelle oder Ad-hoc-Datenvorbereitungen

Datenkatalog-Nutzer

All diese Probleme bei der Datenverwaltung frustrieren Nutzer wie Dateningenieure, Datenwissenschaftler, Datenverwalter und Chief Data Officers. Alle diese Mitarbeitergruppen wünschen sich einen einfachen Zugriff auf vertrauenswürdige Daten. Hier sind nur einige der Herausforderungen aufgeführt, denen sie begegnen:

Dateningenieure möchten wissen, wie sich Änderungen auf das Gesamtsystem auswirken. Sie fragen sich dabei möglicherweise:

  • Welche Auswirkungen hat eine Schemaänderung bei unserer CRM-Anwendung?
  • Wie unterschiedlich sind die PeopleSoft- und HCM-Datenstrukturen?

Datenwissenschaftler wünschen sich einen einfachen Zugriff auf Daten und möchten mehr über die Qualität der Daten wissen. Dabei suchen sie nach Informationen wie:

  • Wo kann ich einige Geostandortdaten finden und untersuchen?
  • Wie kann ich auf einfache Weise auf die Daten im Data Lake zugreifen?

Datenverwalter sind für einen verwalteten Datenprozess verantwortlich. Ihnen geht es um Konzepte, Vereinbarungen zwischen Stakeholdern sowie die Verwaltung des Lebenszyklus der Daten selbst. Sie werden Fragen stellen wie:

  • Verbessern wir wirklich die Qualität unserer Betriebsdaten?
  • Haben wir Standards für wichtige Schlüsseldatenelemente definiert?

Chief Data Officers interessieren sich dafür, wer was im Unternehmen tut. Sie sind normalerweise nicht diejenigen, die einen Datenkatalog verwenden. Aber sie möchten dennoch Antworten erhalten auf Fragen wie:

  • Wer kann auf die persönlichen Daten der Kunden zugreifen?
  • Haben wir für alle Daten Richtlinien für die Beibehaltung definiert?

Hier kommt der Datenkatalog ins Spiel.

Anwendungsfälle von Datenkatalogen

Aufgrund der immer größeren Datenmengen, die heutzutage verwaltet und abgerufen werden müssen, ist das Konzept des Datenkatalogs in den letzten Jahren populär geworden. Cloud, Big Data-Analysen, KI und maschinelles Lernen sind dabei, die Art und Weise, wie wir unsere Daten sehen, verwalten und nutzen, zu verändern. Dabei steht nicht nur die Verwaltung im Blickpunkt, sondern auch die Frage, wie wir Daten vollständig nutzen und auf sie zugreifen können.

Die richtige Verwendung eines Datenkatalogs ermöglicht eine bessere Datennutzung. Und diese trägt wiederum dazu bei:

  • Kosteneinsparungen
  • Die betriebliche Effizienz zu verbessern
  • Wettbewerbsvorteile umzusetzen
  • Das Kundenerlebnis zu verbessern
  • Einen besseren Schutz vor Betrug und Risiken
  • Und noch viel mehr

Hier sind nur einige Anwendungsfälle für einen Datenkatalog. Tatsächlich kann ein Datenkatalog auf viele verschiedene Weisen verwendet werden, denn im Grunde geht es darum, eine breitere Visibilität und einen tieferen Zugriff auf Ihre Daten zu ermöglichen.

Self-Service-Analyse. Viele Datennutzer haben Probleme, die richtigen Daten zu finden. Und nicht nur dabei, die richtigen Daten zu finden, sondern auch bei der Beurteilung, ob diese nützlich sind. So könnten Sie womöglich eine Datei mit dem Namen „customer_info.csv“ entdecken. Und vielleicht benötigen Sie gerade eine Datei mit Kundeninformationen. Aber das heißt noch lange nicht, dass dies die richtige Datei ist, denn es kann noch 50 von ganz ähnlicher Art geben. Die Datei enthält möglicherweise zahlreiche Felder, und Sie verstehen möglicherweise nicht, was alle diese Datenelemente bedeuten. Sie wünschen sich vielleicht eine einfachere Möglichkeit, den geschäftlichen Zusammenhang einzusehen, z. B. ob es sich hier um eine verwaltete Ressource handelt, die aus dem richtigen Datenspeicher stammt oder in welcher Beziehung sie zu anderen Datenartefakten steht.

Die Entdeckung könnte auch das Verständnis der Form und der Merkmale von Daten voraussetzen – sei es etwas so Einfaches wie die Wertverteilung und statistische Angaben oder so wichtige und komplexe Informationen wie personenbezogene Daten (PII) oder persönliche Gesundheitsinformationen (PHI).

Audit, Compliance und Veränderungsmanagement. Angesichts der ständigen Zunahme an staatlichen Vorschriften in Bezug auf Daten müssen Sie oft die Herkunft von Daten nachweisen können – zum Beispiel ob bestimmte Datenartefakte aus dieser oder jener Quelle stammen oder wie diese transformiert werden, bevor sie ihr endgültiges Ziel erreichen. Ihre Datennutzer möchten oft wissen, woher die Daten stammen, wenn sie eine Tabelle, einen Bericht oder eine Datei durchsehen. Und sie möchten erfahren, auf welche verschiedenen Weisen sich Daten durch das Unternehmen bewegen. Aus Sicht des Änderungsmanagements ist es wichtig zu erkennen, wie sich Änderungen in einem Teil einer Datenpipeline auf andere Teile des Systems auswirken. Aus diesem Grund fragen Kunden nach detaillierten Angaben zur Datenherkunft.

Die Unterstützung der Daten-Governance durch Geschäftsglossare. Die meisten Unternehmen nutzen ein gemeinsames Vokabular, das alle Mitarbeiter verstehen und das sie für ihre Geschäftskonzepte verwenden. Aber oft wird dies in Excel-Tabellen aufgezeichnet, die dann irgendwo herumliegen – und das auch nur, wenn die Firma Glück hat. Ein Datenkatalog ist ein viel besser geeigneter Ort, um solche wichtigen Geschäftsinformationen zu speichern und zu verwalten.

Ein Datenkatalog ermöglicht Ihnen Verknüpfungen zwischen Geschäftsbegriffen zu erstellen, um so eine Taxonomie zu etablieren. Darüber hinaus können Beziehungen zwischen Begriffen und physischen Strukturen wie Tabellen oder Spalten aufgezeichnet werden. Dadurch können die Nutzer auch verstehen, welche Geschäftskonzepte für welche technischen Elemente relevant sind. Dies kann dazu verwendet werden, um Datenbestände nach Geschäftskonzepten zu klassifizieren, sodass dann tatsächlich diese Geschäftskonzepte auch anstelle von technischen Namen für die Suche und Identifikation verwendet werden können. Dies stärkt das Vertrauen von Nutzern in das Gefundene, da sie sehen können, was alles mit ihren Daten zusammenhängt. Das ist oft auch ein guter Ausgangspunkt für die Daten-Governance.

Was ist erforderlich, um die Daten in einem Datenkatalog vollständig nutzen zu können?

Holen wir noch einmal aus und erklären für diejenigen, die damit möglicherweise nicht ganz vertraut sind, schnell, was Metadaten sind. Was sind Metadaten? Es gibt drei Arten von Metadaten:

  • Technische Metadaten: Schemata, Tabellen, Spalten, Dateinamen, Berichtsnamen – alles, was im Quellsystem dokumentiert ist
  • Geschäftsmetadaten: Dies ist in der Regel das Geschäftswissen, über das die Benutzer über die Assets in der Organisation verfügen. Dazu können geschäftliche Beschreibungen, Kommentare, Anmerkungen, Klassifizierungen, die Gebrauchstauglichkeit, Bewertungen und noch mehr gehören.
  • Betriebsmetadaten: Wann wurde dieses Objekt aktualisiert? Durch welchen ETL-Job wurde es erstellt? Wie oft haben Nutzer auf eine Tabelle zugegriffen – und auf welche?

In den letzten Jahren haben wir bei der Verwendung dieser wertvollen Metadaten eine kleine Revolution erlebt. Früher wurden Metadaten meist nur für Audits, die Rückverfolgung der Herkunft und zur Berichterstellung verwendet. Aber heute erweitern technologische Innovationen wie die serverlose Verarbeitung, Diagrammdatenbanken und insbesondere neue oder besser zugängliche KI- und maschinelle Lerntechniken die Grenzen des Machbaren, sodass es nun Verwendungszwecke für Metadaten gibt, die in dieser Größenordnung zuvor einfach nicht möglich waren.

Heute lassen sich Metadaten verwenden, um das Datenmanagement zu erweitern. Alles von der Self-Service-Datenaufbereitung bis zur Zugriffskontrolle auf der Grundlage von Rollen und Dateninhalten. Das automatisierte Daten-Onboarding, die Überwachung und die Warnung vor Anomalien. Ressourcen für die automatische Bereitstellung und automatische Skalierung usw. All dies kann jetzt mithilfe von Metadaten erweitert werden.

Und der Datenkatalog nutzt Metadaten, damit Sie aus Ihrer Datenverwaltung noch mehr als je zuvor profitieren können.

Was sollte ein Datenkatalog bieten?

Ein guter Datenkatalog sollte Folgendes bieten:

Suche und Ermittlung. Ein Datenkatalog sollte über flexible Such- und Filteroptionen verfügen, damit Nutzer schnell relevante Datensätze für die Data Science, Analytics oder das Data Engineering finden können. Oder er sollte das Durchsuchen von Metadaten auf der Basis einer technischen Hierarchie von Datenbeständen ermöglichen. Indem Nutzern ermöglicht wird, technische Informationen, nutzerdefinierte Tags oder Geschäftsbegriffe einzugeben, werden ebenfalls die Suchfunktionen verbessert.

Sammeln Sie Metadaten aus verschiedenen Quellen. Stellen Sie sicher, dass Ihr Datenkatalog technische Metadaten aus einer Vielzahl vernetzter Datenbestände abrufen kann, darunter Objekt-Storages, selbstverwaltende Datenbanken, On-Premises-Systeme und vieles mehr.

Kuratieren von Metadaten. Bieten Sie Fachexperten die Möglichkeit, geschäftliches Wissen in Form eines Geschäftsglossars, von Tags, Zuordnungen, benutzerdefinierten Anmerkungen, Klassifizierungen, Bewertungen und anderem einzubringen.

Automatisierung und Datenintelligenz. Bei den Datenskalen, die wir genannt haben, sind KI und maschinelles Lernen oft ein Muss. Alle manuellen Aufgaben, die automatisiert werden können, sollten auch mit KI- und maschinellen Lerntechniken anhand der gesammelten Metadaten automatisiert werden. Darüber hinaus können KI und maschinelles Lernen die datenbezogenen Funktionen wirklich erweitern. So können sie z. B. auf einer modernen Datenplattform Datenempfehlungen für die Nutzer des Datenkatalogs oder die Anwender anderer Dienste geben.

Funktionen der Enterprise-Klasse. Ihre Daten sind wichtig und Sie benötigen Funktionen der Enterprise-Klasse, um sie angemessen verwenden zu können. Dazu gehören z. B. eine Identitäts- und Zugriffsverwaltung und Hauptfunktionen über REST-APIs. Dies würde auch bedeuten, dass Kunden und Partner Metadaten (z. B. benutzerdefinierte Harvester) bereitstellen und die Funktionen des Datenkatalogs in ihren eigenen Anwendungen über REST verfügbar machen können.

Darüber hinaus sollte Ihr Datenkatalog quasi zu Ihrem Systemkatalog werden und somit als Abstraktion über alle Persistenzschichten wie Objektspeicher, Hadoop, Datenbanken, Data Warehouses und Abfragedienste dienen, die für alle Ihre Datenspeicher gültig ist.

Und deshalb ist ein Datenkatalog auch nicht mehr nur eine nette Ergänzung. Er ist eine Notwendigkeit.

Warum sich für den Oracle Cloud Infrastructure Data Catalog entscheiden?

Jedes Unternehmen sollte über einen leistungsstraken Datenkatalog verfügen. Aber warum sollten Sie sich für den Oracle Cloud Infrastructure Data Catalog entscheiden?

Der Oracle Cloud Infrastructure Data Catalog ist in allen Oracle Cloud Infrastructure-Abonnements enthalten und hilft Kunden bei der Organisation und Verwaltung ihrer Datenbestände. Es handelt sich dabei um eine einheitliche, zusammenarbeitsorientierte Lösung für Datenprofis, die nicht nur die Organisation und Verwaltung von Daten ermöglicht. Sie erlaubt auch das Sammeln sowie den Zugriff, die Anreicherung und die Aktivierung technischer, geschäftlicher und betrieblicher Metadaten, um die Self-Service-Datenerkennung und -Governance für vertrauenswürdige Datenbestände in der Oracle Cloud und darüber hinaus zu unterstützen.

Aus praktischer Sicht ermöglicht er:

  • Sammeln technischer Metadaten zu Datenbeständen in der Oracle Cloud Infrastructure wie dem Oracle Cloud Infrastructure Object Storage, der Oracle Autonomous Database oder der Oracle Database.
  • Suchen und erkunden geeigneter Daten aus verschiedenen Quellen durch mehrschichtige Suchen und Filter
  • Verwalten eines Geschäftsglossars, um das Geschäftsvokabular des Unternehmens zu erfassen
  • Anreicherung des Verständnisses der verfügbaren Daten durch Erfassung des Stammeswissens in Form von nutzerdefinierten Tags und Anmerkungen
  • Eine ganzheitliche Perspektive auf Datenbestände durch die Zuordnung von Tags und Geschäftsbegriffen
  • Integration von Funktionen in andere Apps mithilfe von REST-APIs und SDKs
  • Sicherung des Zugriffs durch gruppenbasierte IAM-Richtlinien

Fazit

Unternehmen streben danach, datengestützt zu operieren. Sie wollen bessere und schnellere Analysen, ohne dabei die Governance zu beeinträchtigen. Und genau dadurch wird das Datenmanagement noch wichtiger und herausfordernder. Ein Datenkatalog erleichtert die Datenverwaltung und die Erfüllung ihrer zahlreichen Anforderungen. Mit dem Oracle Cloud Infrastructure Data Catalog hilft Oracle Ihnen dabei, Daten so zu entdecken und zu nutzen, wie Sie es schon immer wollten.