什麼是非監督式學習?

Michael Chen | 內容策略 | 2024 年 7 月 17 日

非監督式學習是一種機器學習技術,使用未標註的資料集進行訓練。在非監督式學習中,模型沒有已建立的目標輸出或關係指引。相反的,目標是探索資料,在此過程中發現模式、趨勢和關係。

非監督式學習是機器學習專案的最佳選擇,具有大量未標示、通常多樣化的資料,其中模式與關係尚未知。演算法通常會找出可能未找到的洞察分析。例如,檢查一組採購歷史記錄可以顯示以類似、先前未知方式購買的客戶群。決策者可能會使用該資訊來開發新的銷售方案。

由於其探索性質,非監督式學習適用於特定情境,這些情境包括:

原始資料分析:非監督式學習演算法可以探索非常大量、非結構化的資料,例如文字,以尋找模式和趨勢。舉例來說,這是來自歷史客戶電子郵件查詢的範例,非監督式學習演算法可以探索非結構化的客戶電子郵件資料集。雖然這些互動沒有標註來定義其質量或目的,演算法仍能識別出模式,從而揭示出改善的機會,例如對相同技術問題的詢問量非常高。

分組:對於資料區隔,非監督式學習可以檢查資料點的特性,以判斷一般性和模式並建立群組。例如,從專案訓練大型語言模型 (LLM) 以回覆客戶輸入。使用聊天機器人和訊息的非結構化客戶意見回饋,演算法可以學習根據文字識別類別,例如帳單問題、正面或負面意見回饋、技術問題或僱用查詢。這些分類有助於模型在語言和語氣上選擇適當的回應。

關係:與分組類似,非監督式學習可以查看權重 (特徵或輸入重疊資料點的重要性)、距離 (資料點之間的整體相似性評量),以及關係品質,以決定資料點的連接方式。以詐騙檢測演算法為例,除了進行二元的可疑記錄標示外,演算法還會檢視不同的相關資料點,例如先前標記過的帳戶進行的相似購買或該帳戶的其他交易。關係分析提供了背景資訊,讓機構能夠判斷標示的記錄是單一事件、屬於較大行為模式的一部分,還是詐騙行為。

在上述每一種狀況中,非監督式學習會識別資料中的模式和特性。這個過程可以幫助人們更好地從中學習,以推動決策。

什麼是非監督式學習?

非監督式學習是一種機器學習,其中的演算法是針對未標示的資料進行訓練。非監督式學習專案從建立要解決的問題或其他目標開始。透過該資訊,專案的潛在客戶可以選擇專案的演算法類型。此選項通常是根據預期的結果來進行的,可能是分群、關聯性或維度 — 即識別和定義資料集中的功能或變數。目標也會驅動搜尋適當的訓練資料集,因為專案的目標與演算法類型會驅動所需的資料類型。

當這些元素確定後,演算法開始進行訓練,透過反覆試錯模擬既定的輸入/輸出關係,直到達到可接受的效能標準。資料專家會分析結果,查看模型是否具有未涵蓋的期望洞察力,並透過調整和調整參數來反覆改善效能。

若要使用非監督式學習,也有一些事項要留意。由於非監督式學習相對於監督式或半監督式學習來說是一種更為複雜的訓練方法,因為缺少標註資料來幫助驗證結果,因此通常需要專家進行監督,以確認模型的效能。因此,雖然非監督式學習在資料標註與準備方面是一個無需人工干預的流程,但仍需密切監控,才能確保朝著正確的方向發展。例如,如果生成式 AI 模型負責生成現實插圖時,領域專家需要仔細審查結果,確保驅動圖像生成的模式和關聯在光線、解剖學及結構可行性等方面是準確的。否則,可能會出現多餘的手指或腳趾。

最常見的非監督式學習類型如下:

叢集:當演算法尋找相似資料群組,以及它們之間的共通性時。實際範例包括客戶區隔與自動排序電子郵件篩選。

關聯規則:演算法檢查資料點之間的關聯,無論是表面上的還是隱藏的多層關聯。現實世界中的例子包括顧客購買模式和醫療診斷中的症狀關聯。

縮減維度:當模型檢查資料集以減少使用的不相關特徵 (維度) 數目時。實際範例包括影像辨識和資料壓縮演算法。

非監督式機器學習可讓公司在缺乏預先定義類別或標籤的大型、多樣化、非結構化資料集探索模式和洞察力,無須人工介入。這就像是在成千上萬顆沙粒中篩選出金粒一樣,有可能開啟全新的成長和創新機會。

哪些 AI 應用案例最適合使用非監督式學習?在這本電子書中發現更多內容

非監督式學習常見問題

非監督式學習有兩種類型?

非監督式學習技術通常分類為兩種不同類型之一。叢集化是指根據特性將資料分組的程序,而演算法則使用階層式叢集等分析方法 (在階層樹狀結構中建立叢集),例如以郵遞區號為基礎的客戶購買力,以及使用計算歸屬可能性 (例如客戶在貸款分析中的風險特性) 的機率分數。關聯規則學習是指識別資料點之間的關係以決定模式與趨勢的程序,以及使用量化關聯等方法的演算法 - 根據資料點之間的數值或量化屬性所關聯的關係。例如依年齡區分的採購趨勢與多國關聯,亦即資料點之間多個可能變數之間的關聯性,例如以年齡、團隊成員品質、薪資及大學方案為基礎的運動員績效。

非監督式學習的良好範例是什麼?

非監督式學習的良好範例是醫療照護業適用的人工智慧 LLM 。在此情況下,LLM 會訓練非結構化資料集,例如醫療教科書、病患記錄和研究資料。LLM 透過反覆訓練學習關係和模式,最終目標是 LLM 以高精確度的適當醫療語言回答查詢。

監督式學習與非監督式學習之間有何差異?

監督式學習在演算法訓練中使用標示的資料集。透過清楚的輸入和輸出標籤,監督式學習奠定了既定定義的基礎。例如,識別貓的演算法會清楚地將標示為有貓或沒有貓的相片進行訓練。非監督式學習在訓練中使用未標示的資料集。如果沒有標籤,演算法會探索資料集以識別模式與趨勢。以識別貓為例,系統可以先使用大量未標註的百科全書式文字和圖像資料進行預訓練,學習與貓相關的視覺模式和概念,然後再透過對較小的圖像資料集進行訓練,專注於具體的項目,如貓的臉部、爪子和尾巴。

非監督式特徵學習的例子是什麼?

機器學習從資料集中發現變數作為特徵。以天氣預測演算法為例,一個特徵可能是一年中的某一天。在無監督學習的特定情況下,當演算法探索資料時,特徵就會被識別出來。回到天氣的例子,模型可能會透過探索發現日期是做出預測的重要因素,從而確定這是模型所需的輸入特徵。