データカタログとは?なぜそれが必要なのか?

簡単に言うと、データカタログは、組織内のデータ資産の整理されたインベントリです。メタデータを使用して、組織がデータを管理できるようにします。また、データの専門家がメタデータを収集、整理、アクセス、および強化して、データの検出とガバナンスをサポートするのにも役立ちます。

データカタログの定義と類似性

メタデータを使用して組織がデータを管理するのに役立つものとして、上記のデータカタログの簡単な定義を示しました。しかし、図書館の類似性でそれを拡張してみましょう。

図書館に行って本を探す必要がある場合は、カタログを使用して、その本がそこにあるか、どのエディションで、どこにあるか、説明など、必要なものすべてを見つけて、必要かどうかを判断でき、必要ならどこへ行けばあるかがわかります。

これが、今日多くのオブジェクト記憶、データベース、およびデータウェアハウスが提供するものです。

しかし、その図書館とカタログの類似性を思い出してください。そして今、そのカタログの力を拡大して、国内のすべての図書館をカバーします。インターフェースが1つしかない場合を想像してみてください。突然、探している本のコピーがある国のすべての図書館を見つけることができ、それらの本のそれぞれに必要な詳細をすべて見つけることができます。

これは、エンタープライズのデータカタログがすべてのデータに対して行うことです。一度に各データストアだけでなく、すべてのデータに対する単一の包括的なビューとより深い可視性を提供します。

おそらく疑問に思うかもしれませんが、なぜそのようなビューが必要なのか?

データカタログが対処できる課題

これまで以上に多くのデータがあり、適切なデータを見つけることがこれまで以上に困難になっています。同時に、これまで以上に多くの規則や規制があり、GDPRはその1つにすぎません。

そのため、データアクセスが課題になっているだけでなく、データガバナンスも課題になっています。現在所有しているデータの種類、データを移動しているユーザー、データの用途、およびデータを保護する方法を理解することが重要です。ただし、データを使用するのが難しすぎるとデータが役に立たないため、データの周囲に多くの層やラッパーを配置しないようにする必要もあります。

残念ながら、適切なデータを見つけてアクセスすることには多くの課題があります。これらには以下が含まれます。

  • データの検索とアクセスに時間と労力が浪費される
  • データレイクがデータスワンプに変わる
  • 一般的なビジネス用語がない
  • 「ダークデータ」の構造や多様性がわかりにくい
  • 来歴、品質、信頼性を評価するのが難しい
  • 部族や不足している知識をキャプチャする方法がない
  • 知識とデータ資産の再利用が難しい
  • 手動およびアドホックなデータ準備の取り組み

データカタログのユーザー

これらのデータ管理の問題はすべて、データエンジニア、データサイエンティスト、データスチュワード、チーフデータオフィサーなどのユーザーを苛立たせます。これらの人々のグループはすべて、信頼できるデータに簡単にアクセスできることを望んでいます。以下は彼らが直面する課題のほんの一部です。

データエンジニアは、変更がシステム全体にどのように影響するかを知りたいと考えています。彼らはこう尋ねるかもしれません。

  • CRMアプリケーションのスキーマ変更の影響は何か?
  • PeopleSoftとHCMのデータ構造はどのように異なるのか?

データサイエンティストは、データに簡単にアクセスできることを望んでおり、データの品質についてもっと知りたいと考えています。彼らは次のような情報を探しています。

  • 地理的位置データはどこで見つけて探索できるか?
  • データレイクのデータに簡単にアクセスするにはどうすればよいか?

データスチュワードは、管理されたデータプロセスを担当します。彼らは、概念、利害関係者間の合意、およびデータ自体のライフサイクルの管理に関心を持っています。彼らは次のような質問をします。

  • 運用データの品質を本当に改善しているか?
  • 重要な主要データ要素の標準は定義されているのか?

チーフデータオフィサーは、組織内で誰が何をしているのかを気にします。彼らは通常、データカタログは使用しませんが、それでも次のような質問への回答を知りたいと思っています。

  • 顧客の個人情報にアクセスできるのは誰か?
  • すべてのデータに対して保持ポリシーが定義されているか?

データカタログを入力します。

データカタログのユースケース

過去数年間で、データカタログの概念が一般的になりました。これは、管理およびアクセスする必要のあるデータの量がますます多くなっているためです。クラウド、ビッグデータ分析、AI、機械学習により、データの表示、管理、活用の方法が変わり始めました。データを管理するだけでなく、データを完全に使用してアクセスできるようになりました。

データカタログを正しい方法で使用することは、データ使用量の向上を意味し、そのすべてが次のことに貢献します。

  • コスト削減
  • 運用効率
  • 競争上の優位性
  • より良いカスタマー・エクスペリエンス
  • 詐欺とリスクのアドバンテージ
  • その他

以下はデータカタログのユースケースのほんの一部です。しかし実際には、データカタログは非常に多くの方法で使用できます。これは、基本的に、データの可視性を高め、データへのアクセスを深めることを目的としているためです。

セルフサービス分析。多くのデータユーザーは、適切なデータを見つけるのに苦労しています。そして、適切なデータを見つけるだけでなく、それが有用かどうかを理解します。customer_info.csvというファイルを見つけるかもしれません。また、顧客に関するファイルが必要になる場合があります。しかし、それは50もの類似したファイルの1つである可能性があるため、それが正しいものであるという意味ではありません。ファイルには多くのフィールドがあり、それらのデータ要素のすべてが何であるかを理解していない可能性があります。管理対象リソースであるか、適切なデータストアからのものであるか、他のデータアーティファクトとの関係など、ビジネスコンテキストをより簡単に確認する方法が必要になります。

発見には、値の分布、統計情報のような単純なもの、または個人識別情報(PII)や個人の健康情報(PHI)のような重要で複雑なものから、データの形状と特性を理解することも必要です。

監査、コンプライアンス、および変更管理データに関する政府の規制がますます厳しくなる中、特定のデータアーティファクトがこのソースからのものか、他のソースからのものか、または最終的なターゲットに到達する前にデータがどのように変換されるかなど、データの出所を示す必要があります。テーブル、レポート、またはファイルを見るとき、データユーザーは、データがどこから来ているのか、さまざまな方法で組織内をどのように移動しているのかを理解したいと思うことがよくあります。変更管理の観点から、データパイプラインの一部の変更がシステムの他の部分にどのように影響するかを確認することが重要です。これが、顧客が詳細なデータ系統を求める理由です。

ビジネス用語集によるデータガバナンスのサポート。ほとんどの組織には、全員が同意する語彙と、ビジネスコンセプトに使用できる一貫した理解があります。しかし、多くの場合、組織がラッキーなら、それはどこかに置かれたExcelシートに記録されます。データカタログは、この重要なビジネス情報を保存および管理できる非常に優れた場所です。

データカタログを使用すると、ビジネス用語間のリンクを確立して分類法を確立することもできます。さらに、用語とテーブルや列などの物理資産との関係を記録できます。また、ユーザーは、どのビジネス概念がどの技術的成果物に関連しているかを理解できます。これを使用して、ビジネスコンセプトラインに沿ってデータ資産を分類し、検索と検出の技術名の代わりにビジネスコンセプトを実際に使用できます。これは、ユーザーが自分のデータに関連するすべてのものを見ることができ、データガバナンスの良い出発点となることが多いため、ユーザーが見ているものに対するユーザーの信頼を高めるのに役立ちます。

データカタログのデータを最大限に活用するに必要なものは何か?

それでは、一歩引いて、メタデータに完全に精通していないかもしれない人にメタデータをすばやく説明しましょう。メタデータとはメタデータには次の3種類があります。

  • 技術メタデータ:スキーマ、テーブル、列、ファイル名、レポート名など、ソースシステムに文書化されているものすべて
  • ビジネスメタデータ:これは通常、ユーザーが組織内の資産について持っているビジネス知識です。これには、ビジネスの説明、コメント、注釈、分類、使用適性、評価などが含まれる場合があります。
  • 運用メタデータ:このオブジェクトはいつ更新されたか?どのETLジョブがそれを作成したか?ユーザーがテーブルにアクセスしたのは何回で、どのテーブルか?

過去数年間で、この貴重なメタデータをどのように使用できるかについての小さな革命が見られました。かつて、メタデータは主に監査、系統、およびレポートのみに使用されていました。しかし今日、サーバーレス処理、グラフデータベース、特に新しい、またはよりアクセスしやすいAIや機械学習技術などの技術革新により、これまでこの規模では不可能だったメタデータで限界が押し広げられています。

現在、メタデータを使用してデータ管理を強化できます。セルフサービスのデータ準備から役割とデータのコンテンツベースのアクセス制御まですべて。自動化されたデータのオンボーディング、監視、および異常の警告。自動プロビジョニングおよび自動スケーリングリソースなど..これらすべては、メタデータの助けを借りて拡張できるようになりました。

また、データカタログはメタデータを使用して、データ管理でこれまで以上に成し遂げるのに役立ちます。

データカタログが提供すべきもの

優れたデータカタログは以下を提供する必要があります。

検索と発見。データカタログには、ユーザーがデータサイエンス、分析、またはデータエンジニアリングに関連するデータのセットをすばやく見つけることができるように、柔軟な検索およびフィルタリングオプションが必要です。または、データ資産の技術階層に基づいてメタデータを参照します。ユーザーが技術情報、ユーザー定義のタグ、またはビジネス用語を入力できるようにすることで、検索機能も向上します。

さまざまなソースからメタデータを収集します。データカタログが、オブジェクトストレージ、自動運転データベース、オンプレミスシステムなど、接続されているさまざまなデータ資産から技術メタデータを収集できることを確認してください。

メタデータのキュレーション。対象分野の専門家が、エンタープライズのビジネス用語集、タグ、関連付け、ユーザー定義の注釈、分類、評価などの形式でビジネス知識を提供する方法を提供します。

自動化とデータインテリジェンス。前述のデータスケールでは、AIと機械学習が必須であることがよくあります。自動化できるすべての手動タスクは、収集されたメタデータに対してAIと機械学習の手法を使用して自動化する必要があります。さらに、AIと機械学習は、データカタログユーザーや最新のデータプラットフォームの他のサービスのユーザーにデータの推奨事項を提供するなど、データを使用して機能を真に強化し始めることができます。

エンタープライズクラスの機能。データは重要であり、データを適切に使用するには、IDやアクセス管理などのエンタープライズクラスの機能と、REST APIを介した主要機能が必要です。これは、顧客とパートナーがメタデータ(カスタムハーベスターなど)を提供し、RESTを介して独自のアプリケーションでデータカタログ機能を公開できることも意味します。

これらすべてに加えて、データカタログは事実上のシステムカタログになり、オブジェクトストア、Hadoop、データベース、データウェアハウスなどのすべての永続性レイヤー全体で抽象化を提供し、すべてのデータストアで機能するサービスをクエリする必要があります。

それもまた、データカタログはあったら良いというだけのものではなくなった理由です。それは必需品です。

Oracle Cloud Infrastructureのデータカタログを選ぶ理由

すべての組織に、強力なデータカタログが必要です。しかし、なぜOracle Cloud Infrastructureデータカタログが必要なのか?

Oracle Cloud InfrastructureデータカタログはすべてのOracle Cloud Infrastructureサブスクリプションに含まれており、顧客がデータ資産を整理および管理するのに役立ちます。これは、データの専門家がデータを整理および管理するだけでなく、技術、ビジネス、および運用のメタデータを収集、アクセス、強化、アクティブ化して、Oracle Cloud以降の信頼データ資産のセルフサービスデータ検出とガバナンスをサポートするための単一のコラボレーションソリューションです。

実用的なレベルから、次のようになります。

  • Oracle Cloud Infrastructure Object Storage、Oracle Autonomous Database、Oracle DatabaseなどのOracle Cloud Infrastructureのデータ資産に関する技術メタデータの収集
  • 多面的な検索とフィルターによるさまざまなソースからの適切なデータ検索して探索する
  • 企業のビジネス用語をキャプチャするビジネス用語集を管理する
  • ユーザー定義のタグと注釈の形式で部族の知識を取得することにより、利用可能なデータを理解して深める
  • タグとビジネス用語を関連付けることによるデータ資産の全体像をつかむ
  • REST APIおよびSDKを使用した他のアプリへの機能を統合する
  • IAMグループベースのポリシーへの安全なアクセス

結論

組織はデータ主導型になるよう努めています。彼らは、ガバナンスを犠牲にすることなく、より優れた、より高速な分析を望んでいます。そしてそれが、データ管理をさらに重要かつ困難にしている理由です。データカタログは、データ管理の管理を容易にし、多くの要求を満たすのを容易にします。Oracle Cloud Infrastructureデータカタログを通じて、オラクルは、誰もが常に望んでいた方法でデータを発見して使用できるようにするための措置を講じています。