Oracle Cloud Free Tier

Oracle Cloudでアプリケーションを無料で構築、テスト、デプロイしましょう。

ETLとは

ETLとは、Extract(抽出)、Transform(変換)、Load(ロード)の略で、データ主導型の組織が複数のソースからデータを収集し、検出、レポート、分析、意思決定を行えるようにそれらをまとめる際に使用されるプロセスのことです。

データソースは、型、形式、量、および信頼性に大きなばらつきがあることがあります。このため、データをまとめるときには、データを処理して使用できる状態にする必要があります。ターゲット・データストアは、目的および実装されている技術によって、データベース、データウェアハウス、またはデータレイクである場合があります。

ETLの3つのステップ

Extract(抽出)
抽出時、ターゲット・データストアに転送できるように、ETLによってデータが識別され、ソースからコピーされます。データは、ドキュメント、電子メール、ビジネス・アプリケーション、データベース、機器、センサー、サードパーティなど、構造化および非構造化ソースから取り込まれることがあります。

Transform(変換)
抽出されたデータは元の形式のままの生データであるため、最終的なデータストア用に準備するために、データをマッピングおよび変換する必要があります。変換プロセスでは、結果のデータが信頼できるクエリ可能なデータとなるように、ETLによって、データが検証、認証、重複除外、集計されます。

Load(ロード)
ETLによって、変換されたデータがターゲット・データストアに移動されます。このステップでは、すべてのソースデータの初期ロードを伴うこともあれば、ソースデータの増分変更がロードされることもあります。データは、リアルタイムまたはスケジュール済バッチでロードできます。

ELTとETLの違い

変換ステップは、ETLプロセスの方がはるかに複雑です。したがって、ETLとELTは、主に次の2つのポイントで異なります。

  • 変換が実行されるタイミング
  • 変換が実行される場所

従来のデータウェアハウスでは、最初に「ソースシステム」(ERPシステム、CRMシステムなど)からデータが抽出されます。OLAPツールおよびSQLクエリでは、データセットのディメンションの標準化に依存して、集計結果を取得します。このため、データに一連の変換を行う必要があります。

従来、これらの変換は、データがターゲットシステム(通常は、リレーショナル・データウェアハウス)にロードされる前に行われていました。

ただし、基盤となるデータストレージやデータウェアハウスを支える処理技術が進化するにつれて、ターゲットシステムでも変換を実行できるようになりました。ETLプロセスとELTプロセスの両方にステージング領域が含まれます。ETLでは、それが独自であるかカスタムであるかに関係なく、これらの領域はツールにあります。それらは、ソースシステム(CRMシステムなど)とターゲットシステム(データウェアハウス)の間に位置します。

それとは対照的に、ELTでは、ステージング領域はデータウェアハウスにあり、ETLツールではなく、DBMSを駆動するデータベースエンジンによって変換が行われます。したがって、ELTの直接的な結果の1つは、データ変換プロセスを支援するためにETLツールによって提供されていたデータ準備機能やクレンジング機能を使用できなくなることです。

ETLとエンタープライズ・データウェアハウス

従来、ETL向けのツールは、主にビジネス・インテリジェンス(BI)アプリケーションをサポートするエンタープライズ・データウェアハウスにデータを提供するために使用されていました。こうしたデータウェアハウスは、すべてのアクティビティにわたって企業で発生するすべてのことに関する信頼できるソースとなるように設計されています。これらのウェアハウスにあるデータは、データ検証に適用される厳密なスキーマ、メタデータおよびルールによって慎重に構造化されています。

エンタープライズ・データウェアハウス用のETLツールは、大容量かつ高パフォーマンスのバッチ、イベントドリブンかつトリクルフィードの統合プロセス、プログラム可能な変換、オーケストレーションなどのデータ統合要件を満たしている必要があります。そうすることで、最も要求の厳しい変換やワークフローを処理し、最も多様なデータソースに対するコネクタを持つことができます。

データをロードした後、ソースデータストアとターゲット・データストア間でデータを同期させるには、複数の戦略があります。データセット全体を定期的に再ロードするか、最新データの定期的な更新をスケジュールするか、ソースデータウェアハウスとターゲットデータウェアハウス間で完全な同期を維持することに全力を尽くすことができます。そのようなリアルタイム統合は、変更データキャプチャ(CDC)と呼ばれます。この高度なプロセスでは、ETLツールがソースデータベースのトランザクション・セマンティクスを理解し、それらのトランザクションをターゲット・データウェアハウスに正しく送信できなければなりません。

ETLとデータマート

データマートは、エンタープライズ・データウェアハウスよりも小さい、より焦点を絞ったターゲット・データストアです。たとえば、データマートでは、1つの部門または1つの製品ラインに関する情報に焦点を絞ることができます。このため、データマート用のETLツールのユーザーは、多くの場合、各事業部門(LOB)のスペシャリストや、データアナリスト、またはデータ・サイエンティストです。

データマート用のETLツールは、プログラマやITスタッフではなく、ビジネスマンやデータマネージャが使用できなければなりません。そのため、これらのツールには、ETLパイプラインを簡単に設定できる視覚的なワークフローが必要です。

ノーコード・データ・フロー設計の詳細

ETL、ELTとデータレイク

データレイクは、データウェアハウスやデータマートと異なるパターンに従っています。データレイクでは、通常、データがオブジェクト・ストレージまたはHadoop分散ファイルシステム(HDFS)に保存されるため、あまり構造化されていないデータをスキーマなしで保存することができ、それらの非構造化データを問い合せるための複数のツールがサポートされています。

これによって可能になったもう1つのパターンがELT(抽出、ロード、変換)です。このパターンでは、データはまずそのまま保存され、データレイクに取得された後、変換、分析、処理されます。このパターンには、いくつかのメリットがあります。

  • すべてのデータが記録される:集計またはフィルタリングのために信号が失われることがありません。
  • データを非常に迅速に取り込むことができる:IoT(Internet of Things)のストリーミング、ログ分析、Webサイトメトリックなどに役立ちます。
  • 取得時に予期されなかった傾向を検出できる
  • 大規模な非構造化データセットのパターン検出に優れている新しい人工知能(AI)技術も導入できる

データレイク用のETLツールは、データ・サイエンティストやデータエンジニアに有効であるため、視覚的なデータ統合ツールが含まれています。データレイク・アーキテクチャでよく使用されるその他のツールには、次のものがあります。

  • クラウド・ストリーミング・サービス:メッセージ、アプリケーションログ、運用テレメトリ、Webクリックストリーム・データの追跡、イベント処理、およびセキュリティ分析用に、大量のリアルタイム・データ・ストリームをデータレイクに取り込むことができます。これらのサービスは、Kafkaと互換性があるため、ほぼ無限のデータソースからデータを取得することができます。
  • Sparkベースのクラウドサービス:非常に大量のデータセットについてデータの処理および変換タスクをすばやく実行することができます。Sparkサービスは、オブジェクト・ストレージまたはHDFSからデータセットをロードし、スケーラブルなコンピュート・インスタンス・クラスタにまたがるメモリでそれらを処理および変換し、元のデータレイク、データマート、またはデータウェアハウスに出力を書き込むことができます。

ETLのユースケース

ETLプロセスでは、データサイエンスおよび分析用にデータを迅速かつ確実にデータレイクに取り込みながら、高品質のモデルを作成できるため、多くの業界で基本となっています。ETLソリューションでは、大規模なトランザクション・データをロードおよび変換し、大量のデータから整理されたビューを作成することもできます。これにより、企業は業界のトレンドを可視化して予測できます。複数の業界で、ETLによって実用的なインサイトや、迅速な意思決定、また効率の向上を実現しています。

金融サービス
金融サービス機関は、大量の構造化および非構造化データを収集して、消費者の行動に関するインサイトを探り出しています。これらのインサイトを使用して、リスクを分析し、銀行の金融サービスを最適化し、オンライン・プラットフォームを改善するだけでなく、ATMに現金を供給することもあります。

石油およびガス
石油およびガス業界では、ETLソリューションを使用して、特定の地域の使用状況、貯蔵量、およびトレンドに関する予測を生成しています。ETLは、採掘場のすべてのセンサーからできるだけ多くの情報を収集し、その情報を処理して読みやすくする際に使用されます。

自動車
ETLソリューションを使用することで、ディーラおよび製造業者は、販売パターンの把握、マーケティング・キャンペーンの調整、在庫の補充、顧客リードのフォローアップなどを行うことができます。

通信
現在、これまでになく多くのさまざまなデータが生産されているため、通信プロバイダは、ETLソリューションにより、それらのデータをより適切に管理および把握しています。企業は、それらのデータを処理および分析した後、それらを広告、ソーシャルメディア、SEO、顧客満足度、収益性などの向上に役立てることができます。

ヘルスケア
ヘルスケア業界では、コストを削減しながら治療を改善するニーズを満たすためETLソリューションを採用し、患者の記録を管理し、保険情報を収集し、変化する規制要件に対応しています。

ライフサイエンス
臨床ラボは、ETLソリューションや人工知能(AI)により、研究機関によって生産されるさまざまなタイプのデータを処理しています。たとえば、ワクチンの開発を共同で行うには、膨大な量のデータを収集、処理、分析する必要があります。

公共部門
次々と登場するIoT(Internet of Things)の機能を活用して、スマートシティでは、ETLとAIの力で交通の最適化、水質の監視、駐車場の改善などを行っています。

ETL製品およびソリューション

サービス指向アーキテクチャ(SOA)スイート
アプリケーション統合の複雑さを軽減するにはどうすればよいでしょうか。簡略化されたクラウド、モバイル、オンプレミス、およびIoT機能が1つのプラットフォームに集約された、このソリューションにより、統合までの時間を短縮し、生産性を向上させるとともに、総所有コスト(TCO)を低減することができます。この製品は、Oracle E-Business Suiteなどの多くのエンタープライズ・アプリケーションでデータフローを調整するためによく使用されています。

GoldenGate
デジタル変革では、多くの場合、データが取得された場所からデータが必要な場所にデータを移動する必要がありますが、GoldenGateはこのプロセスを簡略化するように設計されています。Oracle GoldenGateは、オンプレミス、クラウド、または自律型データベースにある異種データベース間のリアルタイム統合を実現するための高速データ・レプリケーション・ソリューションです。GoldenGateは、システムのパフォーマンスに影響を与えることなくデータの可用性を向上し、リアルタイムのデータアクセスと運用レポートを提供します。

クラウドストリーミング
オラクルのクラウド・ストリーミング・ソリューションは、大量のデータストリームをリアルタイムで取り込んで消費するためのフルマネージドのスケーラブルで耐久性の高いソリューションを提供します。このサービスは、メッセージング、アプリケーションログ、運用テレメトリ、Webクリックストリーム・データ、またはパブリッシュ/サブスクライブ・メッセージング・モデルでデータが継続的かつ連続的に生成および処理されるその他の用途に使用されます。このサービスは、SparkおよびKafkaと完全な互換性があります。