データ・サイエンスとは?

誰がデータ・サイエンスのプロセスを統括するのか?

通常、ほとんどの組織では、データ・サイエンス・プロジェクトは次の3種類のマネージャーによって統括されています。

ビジネス・マネージャー: ビジネス・マネージャーは、データ・サイエンス・チームと協力して問題を定義し、分析のための戦略を開発します。マーケティング、財務、営業などの事業部長が担当することもあり、データ・サイエンス・チームはその指揮下に配属されます。ビジネス・マネージャーはデータ・サイエンス・マネージャーやITマネージャーと緊密に連携しながら、プロジェクトの進行を管理します。

ITマネージャー: シニアITマネージャーは、データ・サイエンスの運用をサポートするインフラストラクチャとアーキテクチャを担当します。このマネージャーは、運用状況やリソースの使用率を常に監視して、データ・サイエンス・チームが効率的かつ安全に運用を継続できるようにします。また、ITマネージャーはデータ・サイエンス・チームが使用するIT環境の構築や更新についても担当する場合があります。

データ・サイエンス・マネージャー: このマネージャーは、データ・サイエンス・チームとその日常業務を監督します。チームのまとめ役として、プロジェクトの計画や監視とのバランスを図りながらチーム開発を進める、チーム。ビルダーの役割を果たします。

ただし、このプロセスで最も重要な役割を果たすのはデータ・サイエンティストです。

データ・サイエンティストとは?

データ・サイエンスは、まだ新しい学術分野です。元々は、統計分析とデータ・マイニングの分野から発展したものです。Data Science Journalは、2002年に発刊され、国際科学会議の科学技術データ委員会から発行されています。データ・サイエンティストという肩書は2008年ごろから一般化し、その後、この分野が急速に成長していきました。以降、データ・サイエンスの学位の授与を始めている大学が増え続けていますが、データ・サイエンティストの数は相変わらず不足しています。

データ・サイエンティストの職務には、データの分析戦略の開発、分析用データの準備、データの探索/分析/視覚化、PythonやRなどのプログラミング言語を使用したデータによるモデルの構築、アプリケーションへのモデルのデプロイなどがあります。

データ・サイエンティストは単独で作業するわけではありません。実際、効果的なデータ・サイエンス業務の多くはチームで進められます。このチームには、データ・サイエンティストのほかに、問題を定義するビジネス・アナリスト、データとそのアクセス手方法を準備するデータ・エンジニア、基盤となるプロセスとインフラストラクチャを監督するITアーキテクト、分析のモデルや出力をアプリケーションや製品に導入するアプリケーション開発者などが加わることもあります。

データ・サイエンス・プロジェクトの実装における課題

データ・サイエンスの重要性は広く知られるようになり、データ・サイエンス・チームに対する投資も盛んに行われるようになりましたが、多くの企業では、データの価値を十分に引き出せていません。人材の獲得やデータ・サイエンス・プログラムの開発に向けて競争が進むなか、一部の企業では、使用するツールやプロセスがスタッフによって異なるために、連携がうまくいかず、チームのワークフローが非効率になるという事態が発生しています。もっと統制の取れた、一元的な管理体制を整えなければ、経営幹部は投資効果を十分に把握できません。

このように環境がばらばらだと、様々な問題が生じます。

データ・サイエンティストが効率的に作業できない。データへのアクセスにはIT管理者からの許可を得る必要があるため、データ・サイエンティストは分析するデータやリソースにすぐにアクセスできず、長く待たされる状況が頻繁に発生します。また、アクセスが許可されても、データ・サイエンス・チームが使用するツールがメンバーごとに異なっていて、互換性がないというケースもあります。たとえば、あるサイエンティストがR言語を使ってモデルを開発し、それを使用するアプリケーションが別の言語で記述されているケースもあるでしょう。その場合、モデルをアプリケーションに導入するのに数週間かかったり、場合によっては数か月かかることも考えられます。

アプリケーション開発者が機械学習にアクセスして使用できない。開発者が機械学習モデルを受け取っても、それをアプリケーションに導入する準備ができていないことがあります。また、アクセス・ポイントに柔軟性があるとは限らないため、必ずしもすべてのシナリオでモデルを導入できるわけではなく、スケーラビリティがアプリケーション開発者に委ねられてしまいます。

IT管理者がサポートに時間をとられすぎる。オープン・ソース・ツールが急増しているため、ITチームがサポートしなければならないツールの数が増え続ける場合があります。たとえば、マーケティング部門のデータ・サイエンティストと財務部門のデータ・サイエンティストとの間で、使用しているツールが異なる場合があります。また、チームによってワークフローが異なっているために、ITチームが環境を何度も再構築し、更新する必要があるというケースも考えられます。

ビジネス・マネージャーがデータ・サイエンスから除かれる。データ・サイエンスのワークフローが常にビジネスの意思決定のプロセスやシステムに組み込まれているとは限らないため、その場合は、ビジネス・マネージャーがデータ・サイエンティストと十分な情報を得ながら連携することは難しくなります。統合が不十分だと、ビジネス・マネージャーはプロトタイプから本番環境への移行に長い時間がかかっている理由を理解できず、移行が遅すぎると感じるプロジェクトへの投資を支援しなくなる可能性があります。

データ・サイエンス・プラットフォームがもたらす新しい機能

企業の多くは、統合プラットフォームがなければデータ・サイエンスの作業は非効率的で、安全でなく、拡張も困難になると認識するようになりました。そうした認識が、データ・サイエンス・プラットフォームの開発へとつながりました。データ・サイエンス・プラットフォームとは、データ・サイエンス業務を1つの環境にまとめるためのソフトウェア・ハブのことです。優れたプラットフォームを使用すれば、データ・サイエンスの導入に伴う多くの課題をクリアし、企業がデータをインサイトへと変えるスピードと効率を向上させるのに役立ちます。

一元化された機械学習プラットフォームにより、データ・サイエンティストは、連携性に優れた環境で好みのオープン・ソース・ツールを使用して作業できるようになり、すべての作業をバージョン管理システムによって同期させることができます。

データ・サイエンス・プラットフォームのメリット

データ・サイエンス・プラットフォームによって、コード、結果、レポートをチーム間で共有できるようになり、冗長性が減少してイノベーションが推進されます。管理が簡素化されてベストプラクティスが組み込まれ、ワークフローのボトルネックが解消されます。

一般に、最適なデータ・サイエンス・プラットフォームは次のようなことを目的としています。

  • データ・サイエンティストによるモデルの迅速な開発、提供の迅速化、エラーの低減を促進してデータ・サイエンティストの生産性を高める
  • データ・サイエンティストが多種多様な大量のデータを扱いやすくなるようにする
  • 偏りがなく、監査と再現が可能な、エンタープライズグレードの信頼できる人工知能を提供する

データ・サイエンスプラットフォームは、専門のデータ・サイエンティスト、シチズン・データ・サイエンティストデータエンジニア、機械学習エンジニアやスペシャリストといった幅広いユーザーによるコラボレーションを目的として構築されています。たとえば、データ・サイエンティストはデータ・サイエンス・プラットフォームを利用してモデルをAPIとして導入することで、モデルをさまざまなアプリケーションに簡単に統合できるようになります。データ・サイエンティストは、ITチームの許可を待つことなく、ツール、データ、インフラストラクチャにアクセスできます。

データ・サイエンス・プラットフォームに対する需要は大きく広がっています。実際、このプラットフォームの市場は大きな成長が見込まれており、今後数年間の複合年間成長率は39%を超え、市場規模は2025年までに3,850億米ドルに達すると予測されています。

データ・サイエンティストがプラットフォームに求めるもの

データ・サイエンス・プラットフォームにどのような機能があるかを調べる際は、次の主要機能について確認するようにしてください。

コラボレーションを促進するプロジェクトベースのUIを選ぶ。コンセプト作りから最終的な開発に至るまで、モデルの構築を連携して行えるプラットフォームを選びましょう。それぞれのチーム・メンバーがデータやリソースにセルフサービスでアクセスできるようにする必要があります。

統合と柔軟性を優先させる。最新のオープン・ソース・ツールをサポートしているプラットフォームを選びましょう。GitHub、GitLab、Bitbucketなどの一般的なバージョン管理プロバイダーが利用できるかどうかや、その他のリソースと緊密に統合できるかどうかを確認してください。

エンタープライズグレードの機能を備えている。チームの拡大とともにビジネスに合わせて拡張できるプラットフォームを選ぶようにしましょう。可用性に優れ、アクセス制御も万全で、多数の同時ユーザーに対応できるプラットフォームを選ぶ必要があります。

データ・サイエンス業務のセルフサービス化を促進できる。ITチームややエンジニアリング・チームの負担を軽減できることや、データ・サイエンティストが環境をすぐに稼働できること、すべての作業を追跡できること、さらには、モデルを本番環境に簡単にデプロイできることを重視してプラットフォームを選びましょう。

モデルの導入を容易にする。モデルの導入と運用化は機械学習のライフサイクルにおける最も重要なステップの1つですが、多くの場合、重要視されていません。モデルの運用を容易にするサービスを選ぶ必要があります。これはAPIを提供する場合でも、統合を簡単にするような形でユーザーがモデルを構築する場合でも同じです。

データ・サイエンス・プラットフォームの導入が適切となるケース

次のような課題のある組織では、データ・サイエンス・プラットフォームの導入によってメリットが得られる可能性があります。

  • 生産性やコラボレーションに限界が見えている
  • 機械学習モデルの監査や再現ができない
  • モデルを本番環境に導入したことがない

データ・サイエンス・プラットフォームはビジネスに真の価値をもたらします。オラクルのデータ・サイエンス・プラットフォームに組み込まれている幅広いサービスは、モデルの導入の迅速化とデータ・サイエンスの結果の向上を目的とした、エンドツーエンドの包括的なエクスペリエンスをもたらします。