データレイクとは、簡単に言えば、構造化データおよび非構造化データを保存する場所であり、さまざまなソースからの非常に多様な大量のデータを整理するための方法です。
現在、データレイクはますます重要になっています。というのも、多くのユーザー(特に、ビジネスおよびテクノロジ関連のユーザーたち)が幅広いデータについて検索および検出を実行したいと思っているからです。すべてのデータまたはそのほとんどを1箇所にまとめることで、それが容易になります。
プラットフォームによっては、データレイクによってそれがはるかに容易になる場合がありますデータレイクは、非構造化データや多構造化データなどの多くのデータ構造を処理でき、データから価値を引き出すのに有用です。
データレイクとデータウェアハウスの主な違いは、データレイクの方がデータを迅速に取り込み、データの準備を後でユーザーがアクセスしたときにその場で行う傾向がある、という点にあります。一方、データウェアハウスでは、データウェアハウスに取り込むずっと前からデータを事前に慎重に準備する必要があります。
業務(特に、業務レポート、分析、ビジネス監視など)に使用している企業では、最新のデータを利用できるように、できるだけ迅速にデータレイクにデータを取り込みたいと考える傾向があります。そうすることで、最新のデータにアクセスし、最新の情報を確認することができます。
データレイクでは、多くの場合、ユーザーはデータを変更せずに元の形式で取り込みます。これは、その方が速いという理由だけでなく、詳細なソースデータが必要になる高度な分析を実行したいなど、その他にも理由があることがあります。これには、以下のいずれであるかに関係なく、あらゆる種類のマイニングに基づく分析が含まれるかもしれません。
データレイクが提供できるすべてのメリットを実現するには、適切なソリューションによって以下のことをより効果的に行うことができなければなりません。
データレイクは、より優れたデータ管理プラットフォームの一部とすることで、もっと便利になります。より強力なデータレイクにするには、既存のデータおよびツールと適切に統合する必要があります。
オムニチャネル・マーケティングでよく見られるのは、データレイクを使用してデータウェアハウスを拡張することで、これはマルチチャネル・マーケティングと呼ばれることもあります。マーケティングにおけるデータエコシステムの考え方は、すべてのチャネルまたはタッチポイントが独自のデータベースとなる可能性があるというものです。そのうえ、多くのマーケティング担当者はサードパーティからもデータを購入しています。
たとえば、マーケティング担当者は、顧客や見込み顧客の購買層やコンシューマ・プリファレンスに関する追加情報が含まれたデータや、各顧客の全体像を把握し、よりパーソナライズしてターゲットを絞ったマーケティング・キャンペーンを作成するのに役立つデータを購入したいと考えるかもしれません。
これは複雑なデータエコシステムであり、その量と複雑さは絶えず増大し続けています。データレイクは、複数のチャネルおよびタッチポイントからもたらされるデータを取得するために導入されることがよくあります。実際、それらのいくつかはストリーミングデータです。
スマートフォンアプリを顧客に提供している企業であれば、顧客がそのアプリを使用するときに、それらのデータをリアルタイムかそれに近いタイミングで受け取っているかもしれません。多くの場合、企業にとって完全にリアルタイムである必要はありません。1、2時間の時差がある場合もあります。しかし、それによって、マーケティング部門は、ビジネスを非常に細かく監視し、特売品、インセンティブ、ディスカウント、マイクロキャンペーンを企画できるようになります。
デジタル・サプライチェーンも同様に多様なデータ環境ですが、データレイクが役に立ちます。特に、データレイクがHadoop上にある場合はそうです。Hadoopは、もともとWebサーバーから送られてくる非常に大容量かつ多数のログファイル用に設計されたため、その大部分はファイルベースのシステムから成っています。サプライチェーンには、多くの場合、大量のファイルベースのデータがあります。デジタル・サプライチェーンで主流になりつつある、EDIシステムのファイルベースおよびドキュメントベースのデータ、XML、もちろん最近のJSONについても考えてみてください。これらは非常に多様な情報です。
考慮すべき内部情報もあります。製造業者は、多くの場合、製造現場、配送部門、および請求部門から、サプライチェーンに密接に関連したデータを受け取っています。データレイクは、製造業者がそれらのデータを1つにまとめてファイルベースで管理するのに役立ちます。
一部の企業では、IoT(Internet of Things)によってほぼ毎日新しいデータソースが作成されています。もちろん、これらのソースは多様化しているため、さらに多くのデータが作成されています。ますます多くの機械に、ますます多くのセンサーが搭載されるようになっています。一例として、そのようなすべての鉄道貨物車両またはトラック貨物車両には大量のセンサーが搭載されているため、企業は運用方法だけでなく、時空を超えてその車両を追跡することができます。安全に運用されているか、燃費に関して最適な運用方法であるかなど、これらの場所からは膨大な量の情報が送られてきますが、データレイクはそれらすべてのデータを格納できるリポジトリを提供しているため、非常に人気があります。
ここまで、特定の部門やITプログラムなど、かなり照準を絞ったデータレイクの使用例について考えてきましたが、ITを一元管理できるようにマルチテナントである1つの大きなデータレイクを提供するという別のアプローチもあります。その場合、さまざまな部門、ビジネスユニット、テクノロジプログラムで使用できます。ユーザーがデータレイクに慣れるにつれて、さまざまな用途、業務、分析、コンプライアンス用にさえ、データレイクを最適化する方法が考え出されています。
データレイクはさまざまな方法で使用でき、その下に置くことができるプラットフォームも多数あります。Hadoopは、最も一般的なプラットフォームですが、唯一のプラットフォームではありません。
Hadoopは魅力的です。線形スケーラビリティを備えていることが実証されています。たとえば、リレーショナル・データベースと比較して、低いコストで拡張することができます。しかし、Hadoopはただの安価なストレージではありません。強力な処理プラットフォームでもあります。また、アルゴリズム分析を行うユーザーにとって、Hadoopは非常に便利です。
大量の構造化されたリレーショナルなデータをデータレイクに取り込みたいユーザーもいるため、リレーショナル・データベース管理システムをデータレイクのプラットフォームにすることもできます。そのため、データが本質的にリレーショナルである場合、データレイクにRDBMSアプローチを採用するのが理想的です。また、SQLや複雑な表の結合など、リレーショナルな機能を行うユースケースがある場合にも、RDBMSが理想的です。
しかし、トレンドはクラウドベースのシステム、特にクラウドベースのストレージへと移りつつあります。クラウドの大きなメリットは、柔軟なスケーラビリティです。クラウドでは、ワークロードの増大に合わせて、サーバーリソースやその他のリソースをマーシャリングできます。また、多くのオンプレミスシステムと比較して、クラウドは低コストである場合があります。その理由の1つは、システムの統合が必要ないためです。
オンプレミスで何かをしようとすると、自分または誰かが何か月もかけてシステムを統合する必要があります。一方、クラウドプロバイダは、多くのシステムについて、それらの統合をすでに済ましています。基本的にはライセンスを購入するだけで、数か月ではなく数時間で運用を開始できます。また、データレイクのベストプラクティスに関する過去の投稿で言及したクラウドへのオブジェクト・ストア・アプローチには、多くのメリットがあります。
もちろん、データレイクにより、ハイブリッドミックスのプラットフォームを手に入れることもできます。いわゆる論理データウェアハウスに馴染みがあるなら、論理データウェアハウスのようなものを手に入れることができます。それこそが論理データレイクです。論理データレイクでは、データが複数のプラットフォームに物理的に分散されます。これには、いくつかの課題があります。たとえば、広範囲な分析クエリを実行できるように、フェデレーテッド・クエリまたはデータ仮想化に優れた特別なツールが必要になります。
とはいえ、そうしたテクノロジはツールレベルで利用可能で、多くのユーザーが使用しています。
データからより多くの価値を引き出すために、企業は常に限界に挑戦しています。現在、多くの企業は、クラウドベースのコンピューティングを活用して、データレイク・テクノロジとデータウェアハウスを「データレイクハウス」と呼ばれる単一のアーキテクチャに結合しています。データレイクハウスのメリットには、より優れた統合、データ移動の削減、データガバナンスの向上、より多くのユースケースのサポートなどがあります。
データレイクは、多様なソースから送られてくる大量の多様なデータすべてをどのように整理するかという問いに対する答えです。データレイクを始める準備ができましたか。始めるにあたっては、ぜひOracle Free Tierをご利用ください。