什么是无监督学习?

Michael Chen | 内容策略师 | 2024 年 7 月 17 日

无监督学习是一种使用未标注数据集进行训练的机器学习技术。在无监督学习中,模型并未针对期望输出或关系建立准则。相反地,这个过程的目标是探索数据,并在此过程中发现模式、趋势和关系。

无监督学习非常适合那些拥有大量未标注且多样化的数据的机器学习项目。算法通常能够发现可能无法找到的洞察。例如,从购物历史数据集中,发现有类似购物行为的客户群体,这是以前所无法发现的信息。决策者可以利用这些信息,制定新的销售计划。

无监督学习具备探索的属性,因此更适合某些特定场景,其中包括:

原始数据分析:无监督学习算法可以从非常庞大的非结构化数据量(例如文本)中发现模式和趋势。其中的一个例子来自历史客户电子邮件咨询,无监督学习算法可以探索非结构化的客户电子邮件数据集。虽然数据集中没有标签可以定义这些交互的质量或目的,但该算法可以检测模式并发现可以改进的地方,例如大量针对同一个技术问题的咨询。

分组:对于数据细分,无监督学习可以检查数据点的特征,以确定共同点和模式并创建组。其中的一个例子是大语言模型 (LLM) 的训练项目,旨在针对客户输入进行回复。该算法可以利用来自聊天机器人和消息的非结构化客户反馈,学习如何根据文本识别类别,例如账单问题、正面或负面反馈、技术问题或就业咨询等。这种分类可以帮助模型从语言和语调方面进行识别,再做出适当的反应。

关系:与分组类似,无监督学习可以根据权重(特征或输入重叠数据点的重要性)、距离(数据点之间整体相似性的指标)和关系质量,以确定数据点的连接方式。以欺诈检测算法为例,该算法可以检查不同的相关数据点,例如以前标注过的账户进行的类似购买或相关账户的其他购买,而不仅仅是对可疑记录进行二元标注。关系分析提供了背景信息,让机构得以根据经过标注的记录,判断是否是一次性事件、更大行为模式的一部分还是欺诈行为。

无论是在哪种情况下,无监督学习都可以识别数据中的模式和特征。这一过程有助于更好地了解需要学习什么内容来推动决策。

什么是无监督学习?

无监督学习是一种机器学习,算法在未标注的数据上进行训练。无监督学习项目从确定要解决的问题或其他目标开始。利用这些信息,项目负责人可以选择项目需要采用的算法类型。负责人通常会根据所需结果进行选择:聚类、关系或维度,即识别和定义数据集中的特征或变量的过程。设定目标也有助于判断哪些是合适的训练数据集,因为项目的目标和算法类型决定了所需的数据类型。

一旦设置好这些部分,算法就可以开始进行训练,通过反复试验来模拟已建立的输入/输出关系,直到达到可接受的性能标准。然后,数据专家会分析结果,了解模型是否发现了所需的洞察,并通过改进和调整参数进行迭代,以此提高性能。

在做出使用无监督学习的决定时,需要留意这些注意事项。无监督学习是一种比监督或半监督学习更为复杂的训练方法,由于缺乏有助于验证结果的已标注数据,因此通常需要能够验证模型性能的专家进行监督。因此,虽然从数据标注和准备的角度来看,无监督学习是一个无需人工干涉的过程,但这仍然需要密切监督才能继续保持正确的发展方向。例如,对于一个负责制作逼真的插图的生成式 AI 模型,领域专家需要仔细检查结果,以确保驱动图像生成的模式和关系在光影、解剖学和结构合理性等方面是准确无误的。否则,您可能会看到多出来的手指或脚趾。

常见的无监督学习类型如下:

聚类:当算法寻找相似的数据组及其之间的共性的时候。现实世界的例子包括客户细分和自动电子邮件过滤。

关联规则:当算法在检查数据点之间的关系的时候,无论是表面层次还是隐藏的几层深度。现实世界的例子包括客户购买模式和医疗诊断的症状关系。

降维:当模型检查数据集以减少使用不相关的特征(维度)的时候。现实世界的例子包括图像识别和数据压缩算法。

无监督机器学习让企业无需人工干预,即可在缺乏预定义类别或标签的大型、多样化、非结构化数据集中发现模式和洞察。这就像在砂里淘金一样,可能从中解锁新的增长和创新机会。

哪种 AI 使用场景更适合无监督学习?阅读电子书,了解更多内容

无监督学习的常见问题解答

无监督学习有哪两种类型?

无监督学习技术通常可分为两种不同类型。聚类指的是根据特征对数据进行分组的过程,其中算法采用诸如层次聚类(在层次树中创建聚类,例如根据邮政编码分类的客户购买力)和概率聚类(使用概率分数计算归属可能性,例如贷款分析中的客户风险特征)等分析方法。关联规则学习指的是识别数据点之间的关系以确定模式和趋势的过程,其算法使用诸如定量关联(基于数据点之间的数值或定量属性相关联的关系,例如各个年龄层的购买趋势)和多关系关联(即数据点之间多个可能变量之间的关联关系,例如基于年龄、队友素质、薪水和大学课程的职业运动员表现)等方法。

无监督学习有哪些好例子?

无监督学习的其中一个很好的例子就是医疗卫生行业的人工智能 LLM。该 LLM 以非结构化数据集进行训练,例如医疗教科书、患者记录和研究数据。通过迭代训练,LLM 可以学习关系和模式,而最终目标是要让 LLM 使用适当的医学语言,高度精准地回答查询。

监督学习和无监督学习有什么区别?

监督学习在算法训练中使用已标注数据集。通过清晰的输入和输出标注,监督学习可以建立在既定定义的基础之上。例如,某个用于识别猫的算法需要根据明确标注为有猫或没有猫的照片进行训练。无监督学习在训练中则使用未标注数据集。没有标注,该算法就会探索数据集,从中识别模式和趋势。同样以识别猫为例,该系统可以使用大量未标注的通用百科全书式文本和图像数据集进行预训练,学习与猫相关的视觉模式和概念,然后通过对特定项目(如猫脸、爪子和尾巴)的较小图像数据集进行训练来进行细化。

无监督特性学习有哪些例子?

在机器学习中,特性是数据集中的变量。以天气算法为例,其中的一个特性是一年中的某一天。对于无监督学习,特性会在算法探索数据时被发现。回到刚刚那个天气的例子,模型可能会通过探索,发现日期是做出预测的重要因素,从而确定这是模型所需的输入特性。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。