データレイクハウスは、データレイクとデータウェアハウスを組み合わせて構築された最新のデータプラットフォームと定義することができます。具体的には、データレイクから非構造化データを柔軟に保存する機能を、データウェアハウスから管理機能やツールを取り出し、戦略的に組み合わせて大きなシステムとして実装するのがデータレイクハウスで す。このユニークな2つのツールの統合は、ユーザーに両者の長所をもたらします。データレイクハウスをさらに詳しく説明するには、まず、2つの元の用語の定義を十分に理解することが重要です。
データレイクハウスとは、既存のデータ・リポジトリ・プラットフォームを組み合わせて利用することを意味します。
では、データレイクハウスは、この2つの考え方をどのように融合させるのでしょうか。通常、データレイクハウスは、データレイクとデータウェアハウスの間にあるサイロの壁を取り払います。つまり、低コストで柔軟性の高いデータレイクのストレージからデータウェアハウスへ、あるいはその逆へとデータを容易に移動させることができ、スキーマやガバナンスを実装するためのデータウェアハウスの管理ツールへの容易なアクセスを実現し、機械学習や人工知能を活用したデータクレンジングを行うこともよくあります。その結果、データレイクの手頃な価格の非構造化コレクションとデータウェアハウスの堅牢な備えを統合したデータリポジトリが作成されます。データレイクハウスは、精選されたデータ・ソースから収集するスペースを提供すると同時に、データをビジネスで利用できるように準備するツールや機能を使用することで、プロセスを加速させます。データレイクハウスは、1980年代前半に誕生したデータウェアハウスを、データドリブンの最新化に向けて再構築したものと言えるでしょう。
データレイクハウスの全体像を理解した上で、具体的な関連要素をもう少し掘り下げてみましょう。データレイクハウスは、過去のデータレイクやデータウェアハウスの概念から馴染みのある多くの要素を提供しますが、ある意味、それらを統合して、今日のデジタル社会にとってより効果的な新しいものを提供します。
データウェアハウスは通常、データクレンジング、ETL、スキーマ適用などのデータ管理機能を提供します。これらは、データを迅速に準備する手段としてデータレイクハウスに導入され、キュレートされたソースからのデータを自然に連携させ、さらなる分析やビジネス・インテリジェンス(BI)ツールに備えられるようになります。
オープンかつ標準化されたストレージ・フォーマットを使用することで、キュレートされたデータ・ソースのデータを連携させ、分析やレポーティングに対応させることが可能になり、非常に有利になります。
コンピュートとストレージのリソースを分離できるため、必要に応じてストレージを簡単に拡張することができます。
多くのデータ・ソースは、デバイスから直接リアルタイム・ストリーミングを使用しています。データレイクハウスは、標準的なデータウェアハウスと比較して、このようなリアルタイムの取り込みをよりよくサポートするように構築されています。世の中がIoTデバイスで統合されていく中で、リアルタイム・サポートの重要性はますます高まっています。
データレイクハウスは、データウェアハウスとデータレイクの両方の機能を統合しているため、さまざまなワークロードに対応できる理想的なソリューションです。ビジネス・レポートからデータ・サイエンス・チーム、分析ツールまで、データレイクハウス固有の品質により、組織内のさまざまなワークロードをサポートすることができます。
データレイクハウスを構築することで、組織は統合された最新のデータ・プラットフォームを使用してデータ管理プロセス全体を合理化できます。データレイクハウスは、複数のレポジトリ間のサイロの壁を取り払うことで、個々のソリューションの役割を果たすことができます。この統合により、キュレートされたデータ・ソースに対して、より効率的なエンド・ツー・エンドのプロセスが実現されます。これにより、さまざまなメリットが生まれます。
データレイクハウスを構築する組織もあれば、データレイクハウス・クラウド・サービスを購入する組織もあります。
Experianは、重要なデータ・ワークロードを他のクラウドからOCI上のデータレイクハウスに移行して、パフォーマンスを40%向上し、コストを60%削減しました。この結果、データ処理と製品イノベーションを加速しただけでなく、信用機会を世界中に拡大できました。
Generali Groupは、世界最大級の顧客基盤を持つイタリアの保険会社です。Generaliは、Oracle Cloud HCMとその他のローカルおよび地域的なソースの両方から、多数のデータソースを有していました。人事部の意思決定プロセスと従業員エンゲージメントが障害となり、同社は効率改善のためのソリューションを求めていました。Oracle Autonomous Data WarehouseをGeneraliのデータソースと統合することで、サイロを取り除き、すべての人事分析のための単一リソースを作成しました。これにより、人事担当者の効率化と生産性の向上が図られ、報告書作成の雑務ではなく、付加価値の高い活動に専念できるようになりました。
世界有数のライドシェアプロバイダーであるLyftは、30ものサイロ化した財務システムに対処していました。この分離が会社の成長を妨げ、プロセスを遅らせることになりました。Oracle Cloud ERPとOracle Cloud EPMをOracle Autonomous Data Warehouseと統合することで、Lyftは財務、オペレーション、分析を1つのシステムに統合することができました。これにより、決算までの時間が50%短縮され、さらにプロセスの合理化が進む可能性があります。また、アイドル時間の短縮によるコスト削減も実現しました。
Agroscoutは、農家が健康で安全な農作物を生産できるように支援するソフトウェア開発企業です。食料生産量を増やすために、Agroscoutはドローンのネットワークを使って、虫や病気がないか作物を調査していました。そのため、データを統合し、農作物の危険な兆候を特定するための効率的な処理方法を必要としていました。オラクルのObject Storage Data Lakeを使用し、ドローンが直接農作物をアップロードしていました。画像処理を行うために、OCIデータサイエンスで機械学習モデルを構築しました。その結果、プロセスが大幅に改善され、食糧増産に迅速に対応することができました。
日を追うごとに、より多くのデータ・ソースが、より大量のデータを世界中に送信するようになりつつあります。どのような組織にとっても、構造化データと非構造化データの組み合わせは、依然として課題となっています。データレイクハウスは、これらの多様なアウトプットを、管理可能な単一のシステムにリンクし、関連付け、分析するものです