教師なし学習とは

Michael Chen | コンテンツ・ストラテジスト | 2024年7月17日

教師なし学習は、トレーニングにラベル付きではないデータセットを使用機械学習手法です。教師なし学習では、モデルには望ましい出力や関係についての確立されたガイドラインはありません。そのかわり、その代わりにデータを詳細に探索し、パターンや傾向、関係性を見出すことが目標となります。

教師なし学習は、ラベル付きではない、さまざまなことが多い、パターンや関係がまだ判明していない大量のデータを扱う機械学習プロジェクトに最適です。このアルゴリズムは、他の方法では発見されなかった可能性のあるインサイトを発見することがよくあります。たとえば、購入履歴のデータセットを調査することで、これまで知られていなかったような方法で購入する顧客のクラスタを明らかにすることがあります。意思決定者は、新しい販売プログラムを開発するためにその情報を使用することができます。

教師なし学習は探索的な性質を持っているため、特定のシナリオに最適です。それらには以下のようなもの含まれます。

未加工データの分析:教師なし学習アルゴリズムは、テキストなどの非常に大規模で構造化されていない大量のデータを探索し、パターンや傾向を見つけ出すことができます。この例は、教師なし学習アルゴリズムが顧客Eメールの非構造化データセットを探索できる、過去の顧客Eメール問い合わせから得られます。これらのやりとりの質や 目的を定義するラベリングはありませんが、アルゴリズムは、同じ技術的な問題に関する問い合わせが多いなど、改善の機会を強調するパターンを検出することができます。

グループ化:データのセグメンテーションのために、教師なし学習はデータポイントの特徴を検証して共通点やパターンを決定し、グループを作成することができます。この例は、顧客の入力に返信するための大規模言語モデル(LLM)をトレーニングするプロジェクトから得られます。チャットボットやメッセージからの非構造化顧客フィードバックを使用しているため、アルゴリズムは、請求に関する質問、肯定的または否定的なフィードバック、技術的な質問、雇用主からの問い合わせなど、テキストに基づくカテゴリを識別することを学習できます。このカテゴリ分類は、言語とトーンの両方の観点からモデルが適切な応答を識別することを支援します。

関係:グループ化と同様に、教師なし学習では、重み(データポイントに重なる特徴や入力の重要度)、距離(データポイント間の全体的な類似性の尺度)、および関係の品質を見て、データポイントがいかに連携しているかを判断することができます。不正検出アルゴリズムでは、疑わしいレコードのバイナリ・フラグを立てるだけでなく、以前にフラグを立てたアカウントによる類似した購入や、問題のアカウントによる他の購入など、さまざまな関連データを調べます。関係分析によって背景が提供され、フラグが付けられた記録が単発のものなのか、より大きな行動パターンの一部なのか、あるいは不正行為なのかを判断することができます。

これらの各ケースにおいて、教師なし学習はデータ内のパターンや特徴を特定します。このプロセスは、意思決定を推進するために学習できることについて理解を深めることにつながります。

教師なし学習とは

教師なし学習とは、ラベル付きではないデータでアルゴリズムをトレーニングする機械学習の一種です。教師なし学習プロジェクトは、解決すべき問題やその他の目標を設定することから始めます。この情報に基づき、プロジェクトのリーダーはプロジェクトのアルゴリズムのタイプを選択することができます。この選択は通常、クラスタリング、関係性、次元性(データセット内の特徴や変数を特定し定義するプロセス)など、望ましい結果に基づきます。プロジェクト・ゴールとアルゴリズムのタイプによって必要なデータ型が決まるため、ゴールも適切なトレーニング・データセットの探索を推進します。

これらの断片が設定されると、アルゴリズムは試行錯誤を使用して、受け入れ可能なパフォーマンス基準を満たすまで、確立された入力と出力の関係を模倣するトレーニングを受けます。データ・エキスパートは結果を分析し、モデルが望ましいインサイトを発見したかどうかを確認し、パフォーマンスを向上させるためにモデルを改善したりパラメータを調整しながら反復します。

教師なし学習を使用するという意思決定には注意すべき点があります。教師なし学習は、結果の検証を支援するラベル付きデータがないため、教師あり学習や半教師あり学習に比べてより複雑なトレーニング手法であるため、通常、モデルのパフォーマンスを確認できるエキスパートによる監視が必要となります。このように、教師なし学習は、データ・ラベル付けとデータ準備の観点からは手のかからないプロセスですが、正しい道を歩むためには綿密な監視が必要です。たとえば、リアルなイラストの生成を任務とする生成AIモデルでは、専門分野のエキスパートが、画像生成の原動力となるパターンや関係が、照明、解剖学、構造的な実現可能性などの分野で正確であることを確認するために、結果を綿密にレビューする必要があります。そうしないと、指やつま先が余ってしまう可能性があります。

教師なし学習の最も一般的なタイプは以下のとおりです。

クラスタリング:アルゴリズムが類似するデータのグループとそれらの間の共通性を検索する場合。実際の例としては、カスタマー・セグメンテーションや自動ソート・メール・フィルタリングなどがあります。

相関ルール:アルゴリズムがデータポイント間の関係を、表面レベルか数層の深さに隠されているかに関わらず調査する場合。実際の例としては、顧客の購買パターンや医療診断における症状との関係などがあります。

次元削減: モデルがデータセットを検証して、使用する無関係な特徴(次元)の数を減らすこと。実例としては、画像認識とデータ圧縮アルゴリズムがあります。

教師なし機械学習により、企業は、あらかじめ定義されたカテゴリやラベルを持たない、大規模でさまざまな非構造化データセットから、人間の介入なしにパターンおよびインサイトを見出すことができます。これは、何千もの砂粒をふるいにかけて金のかけらを探し出すようなもので、成長とイノベーションの新しい機会を引き出す可能性があります。

教師なし学習に最適なAIのユースケースとはこのeBookでそうしたことの詳細を確認する

教師なし学習に関するFAQ

教師なし学習の2つのタイプを教えてください。

教師なし学習技術は通常2つの異なるタイプのいずれかに分類されます。クラスタリングとは、階層的クラスタリング(郵便番号に基づく顧客の購買力など、階層ツリーでクラスタを作成)、確率的クラスタリング(ローン分析における顧客のリスク特性など、属する可能性を計算する確率スコアを使用)などの分析手法を使用するアルゴリズムを使用して、データを特徴に基づいてグループ化するプロセスを指します。相関ルール学習とは、定量的な関連付け(年齢別の購入傾向など、データポイント間の数値的または定量的な属性に基づいて関連付けられる関係)や、複数の関連付け(年齢、チームメイトの質、給与、大学のプログラムに基づいて関連付けられるプロスポーツ選手のパフォーマンスなど、データポイント間の複数の考えられる変数間で関連付けられる関係)などの方法を使用するアルゴリズムを使用して、パターンや傾向を判断するためにデータポイント間の関係を識別するプロセスを指します。

教師なし学習の良い例を教えてください。

教師なし学習の良い例には、医療業界向けの人工知能LLMがあります。この場合、LLMは医学教科書、患者記録、研究データなどの非構造化データセットを用いてトレーニングを行います。繰り返しトレーニングを行うことで、LLMは関係性とパターンを学習し、最終的にはLLMが適切な医学用語を使用してクエリに高い精度で回答することを目標とします。

教師あり学習と教師なし学習の違いを教えてください。

教師あり学習では、アルゴリズムのトレーニングにラベル付きデータセットを使用します。明確な入力ラベルと出力ラベルを持つ教師あり学習は、確立された定義を基礎として構築されます。たとえば、ネコを識別するアルゴリズムは、ネコがいるかいないかが明確にラベル付きの写真に基づいてトレーニングを行います。教師なし学習では、ラベル付きではないデータセットを使用してトレーニングを行います。ラベルがない場合、アルゴリズムはデータセットを探索してパターンや傾向を特定します。ネコの識別という同じ例を使用すると、システムは、一般的な百科事典スタイルのテキストと画像のラベルなし大規模データセットで事前トレーニングを行い、ネコに関する視覚パターンと概念を学習し、その後、ネコの顔、前足、尻尾などの特定の項目に関する小規模な画像データセットでトレーニングすることによって改善することが可能です。

教師なし特徴学習の例を教えてください。

機械学習における特徴とは、データセットに含まれる変数のことです。たとえば、天気アルゴリズムの特徴の例は、その年の日付です。教師なし学習の特定のケースでは、アルゴリズムがデータを探索する際に特徴が特定されます。天気の例に戻ると、モデルは、日付が予測を行う上で重要な要素であることを探索によって見出し、その結果、それがモデルに必要となる入力特徴であると決定する可能性があります。