ビッグデータとは

Michael Hickins|コンテンツ・ストラテジスト| 2024年9月23日

PwCによると、ビッグデータとは、人間と機械が毎日ペタバイト単位で生成する、構造化および非構造化された膨大な量の情報のことです。つまり、顧客感情を探るソーシャル投稿、機械の状態を示すセンサー・データ、ハイスピードで資金を動かす財務取引などです。あまりに膨大で、あまりにさまざまで、あまりに短時間でもたらされるため、旧態依然としたデータ処理ツールと慣行では到底歯が立ちません。

また、分析せずに放置しておくにはあまりに貴重です。ビッグデータとは、このような幅広いデータ収集からインサイトを抽出し、組織の効率化、イノベーションの高速化、収益向上、さらには成功を支援することのみを目的とする機能を指します。

幸いなことに、分析と機械学習のテクノロジーとツールの進歩により、ビッグデータ分析はあらゆる企業にとって容易に利用できるものになりました。

ビッグデータとはビッグデータの定義

ビッグデータとは、従来のデータ処理ツール(特にスプレッドシート)では容易に管理または分析できない、非常に大規模で複雑なデータセットを指します。ビッグデータには、在庫データベースや財務取引リストのような構造化データ、ソーシャル投稿や動画のような非構造化データ、AIの大規模言語モデルをトレーニングするために使用されるような混合データセットが含まれます。これらのデータセットには、シェイクスピアの作品から企業の過去10年間の予算スプレッドシートまで、あらゆるものが含まれる可能性があります。

最近のテクノロジーの飛躍的進歩により、ストレージとコンピュートのコストが大幅に削減され、これまで以上に多くのデータを簡単かつ低コストで保存できるようになったため、ビッグデータは拡大する一方です。このように量が増えたことで、企業はデータを使って高い精度でより的確なビジネス上の意思決定を行うことができます。しかし、ビッグデータの価値を最大限に引き出すには、その分析だけでは不十分ですが、それはまた別のメリットとなります。価値を見出すことは、洞察力に優れたアナリストやビジネスユーザー、エグゼクティブが適切な問いを立て、パターンを認識し、情報をもとに仮説を立て、動きを予測することが必要な発見のプロセスです。

ビッグデータの5つの「V」

従来、私たちはビッグデータを「3つのV」とも呼ばれる「多様性」「データ量」「速度」の3つの特徴で認識してきました。しかし、ここ数年、さらに価値と真実性という2つのVが台頭してきました。

今日、データは資本になっており、こうした追加も納得できるものです。世界最大のテクノロジー企業のいくつかを考えてみてください。これらの企業が提供する製品の多くはデータに基づいており、より効率的な生産や新しい取り組みの開発のために、常にデータ分析を行っています。成功は5つのVによって決まります。

  • データ量。データの量は重要です。ビッグデータでは、低密度の大量の非構造化データを処理する必要があります。そのなかには、X(旧Twitter)のデータフィード、Webページやモバイルアプリでのクリックストリーム、またはセンサー対応機器など価値の不明なデータも含まれています。組織によっては、データが数十テラバイトになる場合があります。中には、数百ペタバイトになる組織もあるかもしれません。
  • Velocity(処理速度)処理速度とは、データを受信して(おそらく)それに基づいてアクションを起こすスピードが高速であることです。最高速度で処理されるデータストリームは、通常はディスクではなく、メモリに直接書き込まれます。一部のインターネット対応スマート製品は、リアルタイムまたはほぼリアルタイムで動作し、リアルタイムの評価とアクションが必要になります。
  • 多様性。多様性とは、利用可能な多くのタイプのデータを指します。従来のデータは構造化されており、リレーショナル・データベースにも適していました。ビッグデータの登場に伴い、データは新しい非構造化データタイプでやってくるようになりました。テキスト、オーディオ、ビデオなどの非構造化および半構造化データタイプでは、意味を導き出し、メタデータをサポートするために、追加の前処理が必要です。
  • 真実性。データの正確さです。データをどれだけ信頼できますか?データの真実性という考え方は、データ品質やデータの統合性といった他の機能概念と結びついています。最終的に、これらはすべて重なり合い、インサイトと意思決定を強化する高品質で正確、かつ信頼性の高いデータを提供するデータ・リポジトリへと組織を導きます。
  • 価値。データはビジネスにおいて本質的な価値を有しています。しかし、その価値が発見されるまでは役に立ちません。ビッグデータにはインサイトの広さと深さを兼ね備えているため、そのすべての情報のどこかに、組織にメリットをもたらすことのできるインサイトがあります。この価値は、最適化される可能性のある運用プロセスのような内部的なものである場合もあれば、エンゲージメントを最大に高めることのできるカスタマー・プロファイルの提案のような外部的なものである場合もあります。

ビッグデータの進化:過去、現在、未来

ビッグデータという概念は比較的新しいものですが、大規模なデータセットを管理することが必要となったのは、最初のデータセンターができ、リレーショナル・データベースが開発された1960~70年代までさかのぼります。

過去2005年頃には、FacebookやYouTube、その他のオンラインサービスでユーザーによって生成されるデータ量の多さが認識され始めました。同年には、大規模なデータセットの保存と分析に特化したオープンソースのフレームワークであるApache Hadoopが開発されています。NoSQLが普及し始めたのもこの頃です。

現在Apache Hadoopや、最近ではApache Sparkなどのオープンソース・フレームワークの開発は、ビッグデータの成長に欠かせないものでした。これらによって、ビッグデータが扱いやすくなり、手ごろな価格で保存できるようになりました。この頃を境に、ビッグデータの量は急増してきました。ユーザーが生成するデータ量も膨大ですが、データを生成するのは人間だけではありません。

Internet of Things(IoT)の出現に伴い、インターネットに接続されるものやデバイスが増え、顧客の利用動向や製品のパフォーマンスに関するデータが収集されています。 機械学習の登場により、生成されるデータ量がさらに増加しています。

未来ビッグデータの登場からかなりの年月が経ちましたが、企業における生成AIとクラウド・コンピューティングの利用が拡大するにつれ、その価値は高まる一方です。クラウドによって非常に柔軟なスケーラビリティを実現でき、開発者はアドホックにクラスターを立ち上げてデータのサブセットのテストを行うことができます。また、グラフ・データベースもますます重要になってきています。アナリティクスを高速かつ包括的に実施できるように大量のデータを表示する機能を備えています。

ビッグデータの利点

ビッグデータ・サービスは、さまざまなデータセットを統合して全体像を形成することで、トレンドやパターンのより包括的な理解を実現します。この融合は、遡及分析を促進するだけでなく、予測機能を強化し、より精度の高い予測と戦略的意思決定を可能にします。さらに、AIと組み合わせることで、ビッグデータは従来の分析の枠を超えた革新的なソリューションを実現し、組織に変革的な成果を推進する力をもたらします。

より包括的な答えとは、データへの信頼性が高まることであり、問題解決へのアプローチがまったく違ったものになります。

  • インサイトの強化。組織がより多くのデータを持つことで、より優れたインサイトを導き出すことができます。より広範な範囲から、さまざまな状況に対する直感を確認できる場合もあります。また、大きなデータ・プールによって、これまで隠されていたつながりが明らかになり、見逃していた可能性のある見解が拡大するケースもあります。自動化によりビッグデータをより迅速かつ容易に処理できるようになれば特に、こうしたことすべてによって、組織は物事の「方法」と「理由」をより包括的な形で理解できるようになります。
  • 意思決定。より優れたインサイトにより、組織はデータに基づく意思決定を行い、より信頼性の高い予測を行うことができます。ビッグデータが自動化および分析と組み合わさることで、より最新の市場動向、ソーシャルメディア分析、リスク管理に情報を提供するパターンなど、あらゆる可能性が広がります。
  • カスタマー・エクスペリエンスのパーソナライズ。ビッグデータにより、組織は顧客のセールス・データ、業界の人口統計データおよびソーシャルメディア活動やマーケティング・キャンペーンのエンゲージメントなどの関連データを組み合わせてカスタマー・プロファイルを構築することができます。自動化と分析以前は、このようなパーソナライズはその範囲から不可能でしたが、ビッグデータを使用することで、このレベルの緻密さがエンゲージメントを向上させ、カスタマー・エクスペリエンスを改善します。
  • 運用効率の向上すべての部門がデータを生成しており、チームが特に意識していない場合でさえ、データは生成されています。つまり、プロセスの異常を検出したり、メンテナンスおよびリソースの使用パターンを特定したり、ヒューマンエラーの隠れた推進要因を浮き彫りにしたりといった作業において、あらゆる部門が運用レベルのデータから恩恵を受けることができます。技術的な問題であれ、スタッフのパフォーマンス上の問題であれ、ビッグデータは組織の運用方法とその改善方法に関するインサイトを生み出します。

ビッグ・データのユース・ケース

ビッグデータは、カスタマー・エクスペリエンスや分析など、さまざまなビジネス活動の最適化を支援することが可能です。ここでは、その一部を挙げてみます

1.小売とeコマースNetflixやProcter & Gambleなどの企業は、ビッグデータを使用して顧客の需要を予測するようになりました。過去および現在の製品やサービスの主な特性を分類し、それらの特性とその製品またはサービスの商業的成果との関係をモデル化することにより、新しい製品やサービスの予測モデルを構築しています。またP&Gは、フォーカス・グループ、ソーシャル・メディア、テスト・マーケット、初期の店舗展開から得られるデータとアナリティクスを利用して、新製品の計画、生産、発売につなげています。

2.医療医療業界では、電子カルテ、患者用ウェアラブル端末、人材配置データなどの内部データソースと、保険記録や疾病調査などの外部データソースを組み合わせることで、医療提供者と患者のエクスペリエンスを最適化することができます。内部では、運用チームから提供されるインサイトにより、人員配置スケジュール、サプライチェーン、施設管理を最適化することができます。患者にとっては、パーソナライズされた推奨事項および予測スキャンなど、すべてを推進するデータによって、即時および長期のケアに変化をもたらすことができます。

3.金融サービスセキュリティについて考えるなら、問題になるのは少数の悪質な攻撃者ではありません。相手は専門性の高いグループです。セキュリティ動向やコンプライアンス要件は常に変化しています。ビッグデータは、不正を示すデータ内のパターンの特定や、規制報告を作成するための膨大な情報の集約を迅速に行うのに役立ちます。

4.製造。機械の障害を予測できる要因は、機器の製造年、メーカー、モデルなどの構造化データに深く埋もれている可能性も、何百万ものログ・エントリ、センサー・データ、エラー・メッセージ、エンジン温度の読み取り値などの非構造化データに埋もれている可能性もあります。問題が発生する前に、このような潜在的な問題の兆候を分析することで、コスト効率よく保守作業を実施し、部品や機器の稼働時間を最大化することができます。

5.行政および公共サービス政府機関は、DMVの記録、交通データ、警察・消防データ、公立学校の記録など、さまざまなソースからデータを収集できる可能性があります。これにより、交差点管理の最適化における推進要因の検出や、学校におけるリソース配分の改善など、さまざまな方法で効率化を推進することができます。また、政府はデータを公開することができるため、透明性を向上させて社会からの信頼を高めることができます。

ビッグ・データの課題

ビッグデータには大きな可能性がありますが、課題がないわけではありません。

第一に、ビッグデータは大きいのです。データストレージを促進する新しいテクノロジーが開発されていますが、アナリストによると、データ量は約2年ごとに倍増しています。データへの対応に追われ、効果的な保存方法を見つけることに苦労している組織は、データ量の削減によって安堵を得ることはないでしょう。

また、データを低コストでアクセスしやすく保存するだけでは十分ではありません。データを使用できなければ価値を引き出せず、それにはキュレーションが必要です。キュレーションされたデータ、つまり顧客に関連し、有意義な分析が実現できるようにまとめられたデータは、忽然と現れるものではありません。キュレーションには多くの作業が必要となります。多くの組織では、データ・サイエンティストはその業務時間の50~80%を、効果的に使用できるデータのキュレーションと準備に費やしています。

すべてのデータが組織のリポジトリに保存された後も、2つの大きな課題が残ります。まず、データ・セキュリティとプライバシーのニーズが、ITチームがデータを管理する方法に影響を与えます。これには、地域/業界の規制への準拠、暗号化、機密データに対する役割ベースのアクセスなどが含まれます。第二に、データは使用されて初めて有用となるものです。特に、レガシー・ポリシーと長年にわたる姿勢が企業文化に組み込まれている場合、データドリブン・カルチャーの構築は困難な課題となる可能性があります。セルフサービス分析などの新しい動的アプリケーションは、ほぼすべての部門にとってゲーム・チェンジとなり得ますが、ITチームは教育、習熟、トレーニングに時間と労力を割く必要があります。これは、インサイトと最適化を得るために、組織に大きな変化をもたらす長期的な投資です。

最後に、ビッグデータのテクノロジーは急速なペースで変化しています。ほんの数年前まで、Apache Hadoopがビッグデータの処理に使用される一般的なテクノロジーでした。その後、2014年になるとApache Sparkが登場しました。今日、ビッグデータ市場では、さまざまなテクノロジーが新しいブレークスルーをもたらしています。遅れを取らないようにすることは、継続的な課題になっています。

ビッグ・データの仕組み

ビッグデータは、新たな機会とビジネス・モデルにスポットライトを当てるインサイトを提供することで機能します。データが取り込まれたら、3つの重要なアクションから開始します。

1 統合

ビッグデータでは、それぞれに異なるさまざまなソースやアプリケーションからのデータをまとめますが、通常、抽出、変換、読み込み(ETL)など、従来型のデータ統合のメカニズムでは不十分です。テラバイトあるいはペタバイト規模のビッグデータを分析するには、新しい戦略やテクノロジーが必要です。

データの統合では、データを取り込み、処理して、一定のフォーマットに変換し、ビジネスアナリストが使用できる形式にする必要があります。

2. 管理

ビッグデータにはストレージが必要です。ストレージ・ソリューションは、クラウドでもオンプレミスでも、その両方でも構いません。データはどのような形態で保存しても構いません。望ましい処理要件と必要な処理エンジンをデータセットにオンデマンドで適用することができます。多くの場合は、現在データがどこにあるかに応じて、ストレージ・ソリューションが選択されます。データレイクは、現在のコンピュート要件に対応するとともに、必要に応じてリソースを追加できるため、徐々に人気が高まっています。

3. 分析

データを分析し、それをもとに実践することで、ビッグデータへの投資の効果が得られます。さまざまなデータセットのビジュアル分析により、新たに明確な理解が得られます。データの探索を進めることで、新たな発見があります。発見した情報は他の人と共有しましょう。機械学習や人工知能を利用して、データモデルを構築することもできます。データを組織のために活用しましょう。

ビッグ・データのベストプラクティス

ビッグデータの活用を進めるうえで、覚えておくべき重要なベストプラクティスをいくつかまとめました。成果の上がるビッグデータの基盤を構築するためのガイドラインをご確認ください。

1.ビッグデータと具体的なビジネス目標に連携する

データセットの規模が大きくなるほど、新たな発見も増えます。そのためには、継続的なプロジェクトへの投資の確保や資金の調達ができるように、ビジネスに基づく強固なコンテキストを持つスキルや組織、インフラストラクチャへの新規投資を基盤に置くことが重要です。現在の方向が正しいかどうかを判断するには、ビッグデータがビジネスやITの最優先事項の実現に役立っているかどうかを考えます。たとえば、Webログを絞り込んでeコマースの挙動を把握すること、ソーシャル・メディアやカスタマー・サポートの対話からセンチメントを導き出すこと、統計的な相関手法とそれが顧客、製品、製造、およびエンジニアリングのデータとどう関連するかを理解すること、などが考えられます。

2.標準とガバナンスによりスキル不足を緩和する

ビッグデータへの投資からメリットを得るうえで最大の障害の1つは、データ分析に必要なスキルを持つスタッフが十分に揃っていないことです。ビッグデータのテクノロジー、検討事項、決定事項をITガバナンスプログラムに加えることによって、このリスクを緩和できます。方法を標準化することで、コストの管理とリソースの活用が可能になります。ビッグデータのソリューションおよび戦略を導入する組織では、早期に、また度々、スキル要件の評価を行い、潜在的なスキルギャップをプロアクティブに特定する必要があります。それには、既存の人材のトレーニング/クロストレーニング、新しい人材の採用、コンサルティング会社の活用が役立ちます。

3.センター・オブ・エクセレンスで知識の伝達を最適化

CoE(センター・オブ・エクセレンス)のアプローチを知識の共有、管理監督、プロジェクトのコミュニケーションの管理に役立てます。ビッグデータに新たに投資する場合でも投資を拡大する場合でも、ソフトコストおよびハードコストを企業全体で分け合うことができます。このアプローチを利用すると、より構造化された体系的な方法を実現して、ビッグデータの能力を向上させ、全体的な情報アーキテクチャの成熟度を高めるのに役立ちます。

4.最も効果が得られるのは、非構造化データを構造化データに揃えること

ビッグデータを単独で分析することで、確かにメリットが得られます。しかし、密度の低いビッグデータと現在すでに使用している構造化データを結び付け、統合することで、さらに優れたビジネスインサイトが得られます。

顧客、製品、機器、環境など、収集するビッグデータがどのようなものであっても、その目標は、コアマスターや分析サマリーに使用できる意味のあるデータポイントを追加することにより、より的確な結果を得ることです。たとえば、全顧客のセンチメントの分類と、優良顧客のみのセンチメントの分類には違いがあります。そのため、多くの人がビッグデータを、既存のビジネス・インテリジェンス機能やデータウェアハウス・プラットフォーム、情報アーキテクチャを拡張する不可欠な要素と考えています。

ビッグデータの分析プロセスおよびモデルには、人間ベースのものと機械ベースの両方があることに注意してください。ビッグデータの分析機能には、統計、空間分析、セマンティクス、対話型データ探索、視覚化などが含まれます。分析モデルを使用することにより、さまざまな種類、さまざまなソースのデータの相関関係を調べて、関連性を特定し、意味のある発見をすることができます。

5. 最適なパフォーマンスが得られるように、データ探索用ラボの計画を策定する

データから意味を見出すことは、必ずしも簡単なことではありません。何を探しているのかさえ分からない場合もありますが、それも想定内です。管理チームやITチームは、このように方向性や明確な要件がない場合にも対応が必要です。

同時に、アナリストやデータ・サイエンティストは、重要な業務知識のギャップや要件を把握するため、ビジネス部門と緊密に連携を取ることが重要です。インタラクティブなデータ探索と統計アルゴリズムのやりとりに対応するには、高いパフォーマンスの仕事領域が必要です。必要なサポートが得られ、適切なガバナンスが行われるサンドボックス環境を確保してください。

6. クラウド運用モデルと連携する

ビッグデータのプロセスおよびユーザーは、実験の繰り返しや本番環境のジョブの実行のため、幅広いリソースにアクセスできる必要があります。ビッグ・データ・ソリューションには、トランザクション、マスターデータ、参照データ、サマリーデータなど、あらゆるデータ領域が含まれます。分析用サンドボックスをオンデマンドで作成できる必要があります。前処理と後処理、統合、データベース内サマリー、分析モデリングを含むデータフロー全体を制御するには、リソース管理が不可欠です。このように絶えず変化する要件に対応するには、プライベートクラウドおよびパブリッククラウドのプロビジョニングおよびセキュリティの戦略を適切に計画しておくことが非常に重要です。

オラクルでビッグデータについて詳しく学ぶ

ビッグデータの効率的かつ包括的な管理を必要とする組織にとって、Oracle Cloud Infrastructure(OCI)ビッグデータ・プラットフォームは、さまざまな機能を優れたコストパフォーマンスで提供します。ビッグデータ・ツールがネイティブに統合されたOCIは、フルマネージドの自動スケーリング可能かつ弾力的なビッグデータ・プラットフォームであり、すべてのデータを統合する従量課金モデルで提供されます。

ビッグデータの量、速度、多様性により、有意義なインサイトと実用的なインテリジェンスを引き出すことは困難ですが、データから価値ある情報を抽出するために必要なツールや専門知識に投資している企業は、意思決定者に推測ではなく事実に基づく戦略を可能にする豊富なインサイトを見出すことができます。

AIはデータなしにはありえず、データが多いほど優れたものになります。レポートをダウンロードして、AI導入を推奨し、検索拡張生成(RAG)とベクトル検索を使用してAI出力を充実させる迅速な成果を獲得する方法をご覧ください。

ビッグデータに関するFAQ

ビッグデータの意味を教えてください。

ビッグデータとは、従来のデータ処理方法やツールでは容易に管理することができない、非常に大規模でさまざまなデータセットを指します。

ビッグデータの例を教えてください。

ビッグデータは、5つのVによって特徴付けられます。つまり、膨大なデータ量の情報を含み、データ生成速度が速く、多様なデータ型を持ち、データの真実性価値が強調されます。ソースの例としては、メール、テキスト、動画、データベース、IoTセンサー・データ、ソーシャル・ポスト、Webページなどがあります。

データドリブンな意思決定を利用する業界の例としては、医療、小売、金融、マーケティングなどが挙げられます。医療においては、ビッグデータを使用して大規模なデータセットを調査し、2型糖尿病などの病気が発症する前に、患者が早期介入によってメリットを得られる時期を予測することができます。小売では、ビッグデータは在庫を最適化し、提供する商品とおすすめ商品をパーソナライズすることを支援します。金融では、ビッグデータは不正検出とトレンド特定の改善に使用され、一方マーケティング担当者は、膨大な量の非構造化ソーシャルメディア・データを追跡してセンチメントを検出し、広告キャンペーンを最適化することができます。