データレイクハウスとは

データウェアハウス+データレイク= データレイクハウス

データレイクハウスは、データレイクとデータウェアハウスを組み合わせて構築された最新のデータプラットフォームと定義することができます。具体的には、データレイクから非構造化データを柔軟に保存する機能を、データウェアハウスから管理機能やツールを取り出し、戦略的に組み合わせて大きなシステムとして実装するのがデータレイクハウスで す。このユニークな2つのツールの統合は、ユーザーに両者の長所をもたらします。データレイクハウスをさらに詳しく説明するには、まず、2つの元の用語の定義を十分に理解することが重要です。

データレイクハウスとデータレイクとデータウェアハウスの比較

データレイクハウスとは、既存のデータ・リポジトリ・プラットフォームを組み合わせて利用することを意味します。

では、データレイクハウスは、この2つの考え方をどのように融合させるのでしょうか。通常、データレイクハウスは、データレイクとデータウェアハウスの間にあるサイロの壁を取り払います。つまり、低コストで柔軟性の高いデータレイクのストレージからデータウェアハウスへ、あるいはその逆へとデータを容易に移動させることができ、スキーマやガバナンスを実装するためのデータウェアハウスの管理ツールへの容易なアクセスを実現し、機械学習や人工知能を活用したデータクレンジングを行うこともよくあります。その結果、データレイクの手頃な価格の非構造化コレクションとデータウェアハウスの堅牢な備えを統合したデータリポジトリが作成されます。データレイクハウスは、精選されたデータ・ソースから収集するスペースを提供すると同時に、データをビジネスで利用できるように準備するツールや機能を使用することで、プロセスを加速させます。データレイクハウスは、1980年代前半に誕生したデータウェアハウスを、データドリブンの最新化に向けて再構築したものと言えるでしょう。

データレイクハウスの機能

データレイクハウスの全体像を理解した上で、具体的な関連要素をもう少し掘り下げてみましょう。データレイクハウスは、過去のデータレイクやデータウェアハウスの概念から馴染みのある多くの要素を提供しますが、ある意味、それらを統合して、今日のデジタル社会にとってより効果的な新しいものを提供します。

データ管理の機能

データウェアハウスは通常、データクレンジング、ETL、スキーマ適用などのデータ管理機能を提供します。これらは、データを迅速に準備する手段としてデータレイクハウスに導入され、キュレートされたソースからのデータを自然に連携させ、さらなる分析やビジネス・インテリジェンス(BI)ツールに備えられるようになります。

オープン・ストレージ・フォーマット

オープンかつ標準化されたストレージ・フォーマットを使用することで、キュレートされたデータ・ソースのデータを連携させ、分析やレポーティングに対応させることが可能になり、非常に有利になります。

柔軟なストレージ

コンピュートとストレージのリソースを分離できるため、必要に応じてストレージを簡単に拡張することができます。

ストリーミングのサポート

多くのデータ・ソースは、デバイスから直接リアルタイム・ストリーミングを使用しています。データレイクハウスは、標準的なデータウェアハウスと比較して、このようなリアルタイムの取り込みをよりよくサポートするように構築されています。世の中がIoTデバイスで統合されていく中で、リアルタイム・サポートの重要性はますます高まっています。

多様なワークロード

データレイクハウスは、データウェアハウスとデータレイクの両方の機能を統合しているため、さまざまなワークロードに対応できる理想的なソリューションです。ビジネス・レポートからデータ・サイエンス・チーム、分析ツールまで、データレイクハウス固有の品質により、組織内のさまざまなワークロードをサポートすることができます。

データレイクハウスのメリット: 最新のデータ・プラットフォーム

データレイクハウスを構築することで、組織は統合された最新のデータ・プラットフォームを使用してデータ管理プロセス全体を合理化できます。データレイクハウスは、複数のレポジトリ間のサイロの壁を取り払うことで、個々のソリューションの役割を果たすことができます。この統合により、キュレートされたデータ・ソースに対して、より効率的なエンド・ツー・エンドのプロセスが実現されます。これにより、さまざまなメリットが生まれます。

  • 管理の軽減:データレイクハウスを使用することにより、生データからデータを抽出し、データウェアハウス内で動作するように準備するのとは対照的に、それに接続しているあらゆるソースは、データにアクセスして使用できるように統合することができます。
  • データ・ガバナンスの向上:データレイクハウスは、リソースとデータ・ソースを統合することでガバナンスを簡素化し、改善します。また、標準化されたオープン・スキーマで構築されているので、セキュリティ、メトリック、役割ベースのアクセス、およびその他の重要な管理要素をより詳細に制御することが可能になります。
  • 簡略化された標準 データウェアハウスは、接続性が非常に限定されていた1980年代に生まれたため、組織内や部門内でローカライズされたスキーマ標準がしばしば作成されました。今日、多くの種類のデータにはスキーマのオープン・スタンダードが存在し、データレイクハウスはそれを利用して、標準化されたスキーマが重複する複数のデータソースを取り込み、プロセスを簡素化することができます。
  • 費用対効果の向上:データレイクハウスは、コンピュートとストレージを分離したインフラストラクチャで構築されており、コンピュート能力を増強しなくてもストレージを容易に追加することが可能です。これにより、シンプルで低コストなデータストレージを使用した費用対効果の高いスケーリングが可能になります。

データレイクハウスを構築する組織もあれば、データレイクハウス・クラウド・サービスを購入する組織もあります。

お客様事例: データレイクハウス

Experianの動画サムネイル
Experian

Experianは、重要なデータ・ワークロードを他のクラウドからOCI上のデータレイクハウスに移行して、パフォーマンスを40%向上し、コストを60%削減しました。この結果、データ処理と製品イノベーションを加速しただけでなく、信用機会を世界中に拡大できました。

Generaliの動画サムネイル
Generali

Generali Groupは、世界最大級の顧客基盤を持つイタリアの保険会社です。Generaliは、Oracle Cloud HCMとその他のローカルおよび地域的なソースの両方から、多数のデータソースを有していました。人事部の意思決定プロセスと従業員エンゲージメントが障害となり、同社は効率改善のためのソリューションを求めていました。Oracle Autonomous Data WarehouseをGeneraliのデータソースと統合することで、サイロを取り除き、すべての人事分析のための単一リソースを作成しました。これにより、人事担当者の効率化と生産性の向上が図られ、報告書作成の雑務ではなく、付加価値の高い活動に専念できるようになりました。

Lyftの動画サムネイル
Lyft

世界有数のライドシェアプロバイダーであるLyftは、30ものサイロ化した財務システムに対処していました。この分離が会社の成長を妨げ、プロセスを遅らせることになりました。Oracle Cloud ERPとOracle Cloud EPMをOracle Autonomous Data Warehouseと統合することで、Lyftは財務、オペレーション、分析を1つのシステムに統合することができました。これにより、決算までの時間が50%短縮され、さらにプロセスの合理化が進む可能性があります。また、アイドル時間の短縮によるコスト削減も実現しました。

Agroscoutの動画サムネイル
Agroscout

Agroscoutは、農家が健康で安全な農作物を生産できるように支援するソフトウェア開発企業です。食料生産量を増やすために、Agroscoutはドローンのネットワークを使って、虫や病気がないか作物を調査していました。そのため、データを統合し、農作物の危険な兆候を特定するための効率的な処理方法を必要としていました。オラクルのObject Storage Data Lakeを使用し、ドローンが直接農作物をアップロードしていました。画像処理を行うために、OCIデータサイエンスで機械学習モデルを構築しました。その結果、プロセスが大幅に改善され、食糧増産に迅速に対応することができました。

レイクハウスの構築にOCIが最適な理由

日を追うごとに、より多くのデータ・ソースが、より大量のデータを世界中に送信するようになりつつあります。どのような組織にとっても、構造化データと非構造化データの組み合わせは、依然として課題となっています。データレイクハウスは、これらの多様なアウトプットを、管理可能な単一のシステムにリンクし、関連付け、分析するものです