What You See Is What You Get Element

在 Oracle 云中构建自适应智能流程

作者:Brendan Tierney

本文介绍适用于机器学习的自适应智能解决方案的主要组件,以及如何使用 Oracle 云服务产品的各个组件构建此类解决方案。

在过去几年中,机器学习和预测分析等许多数据科学类型的解决方案得到大量采用。组织使用这些技术来创建各种类型的预测模型和先进的决策管理解决方案,以便更深入地了解数据,然后运用这些新的洞察来获得竞争优势。每天都可以从新报告中详细了解全球各地的组织如何在数据中发现新的模式,并使用使用这些新信息通过许多新方式了解客户并与客户进行交互。聊天机器人是以创新方式运用机器学习的新兴技术之一。(参见 Oracle 移动云的智能机器人特性。)

随着此类技术的日益普及,再加上数据范围的不断扩大,从传统数据源(枯燥陈旧的小数据)到传感器和物联网 (IoT) 技术,管理数据科学流程和生命周期已经成为一项日益重要且日益复杂的任务。由于运行脚本以及执行简单、直接的评估需要太多的时间,因此大多数组织正在将注意力转向采用自动化或半自动化的方式管理这些流程。数据科学家可以将花在这些任务上的时间投入到组织的新应用领域中。

许多组织开始采用数据科学流程自动化来解放数据科学家的双手,让他们不必再执行普通的重复性任务,而是专注于将数据科学应用于新的业务领域。这种数据科学流程自动化通常被称作自适应智能。自适应智能主要涉及构建相应的流程、基础架构和应用,以支持持续构建、评估、监视和部署机器学习模型,以及采用自动化方式持续监视这些机器学习模型的有效性。

何为自适应智能?

自适应智能是数据科学团队在整个组织中构建和部署高级分析和机器学习后开发的下一层。每次部署高级分析或机器学习解决方案之后,模型和应用都会产生额外的数据,因此也需要进行额外的监视。

例如,模型可能会预测客户的特定子集将“流失”。随着时间的推移,所收集数据会反映这些客户和其他客户是否真地流失了。因此需要监视和评估数据,检查哪些客户实际发生了流失,并与所预测的客户列表进行对比。此外,还需要详细检查数据和结果以确定客户流失的主要原因,等等。

模型会生成大量数据,并且可能需要收集、评估和监视更多数据。数据科学团队一方面要收集和监视所生成的数据,另一方面还要研究新的高级分析和机器学习解决方案。这是一个需要定期执行的迭代过程,用于确定是否需要更新机器学习模型以反映每个应用区域的数据的当前和不断变化的性质。数据挖掘跨行业流程 (CRISP-DM) 生命周期的外环突出显示了这一迭代过程,如图 1 中的红色区域所示。

自适应智能图 1

图 1:CRISP-DM 生命周期 — 突出显示了数据科学项目的迭代性质

CRISP-DM 流程的迭代外环体现了构建自适应智能解决方案所涉及的核心性质,大多数关于此主题的文献都讨论了这一问题。这个外环占用了开发工作中的大量时间,但是也可以通过更快速、更高效地在组织中部署更新的机器学习模型来节省大量的人力和财力。

有了自适应智能,数据科学团队正在设法对图 1 中的外环进行自动化。为此,他们需要定义其流程以及流程的各个组件如何实现自动化。此外,还需要定义异常处理来提醒数据科学团队注意机器学习算法发现的任何异常或任何重大更改。自适应智能解决方案可以自动监视所部署的高级分析和机器学习模型并自动监视所生成数据,从而实现以下目的:

  • 自主学习何时应重建模型
  • 自行确定新模型的调优和参数设置
  • 评估新模型并确定是否应当部署
  • 将新模型部署到技术基础架构的相关区域
  • 确定数据和模型行为的差异
  • 提醒数据科学团队注意数据行为的任何重大变化
  • 在仪表盘上及时更新数据和模型的新变化

自适应智能解决方案中的流程名目繁多且很复杂。大多数组织首先会在自己的数据中心中构建此类解决方案。但是随着高级分析和机器学习模型数量的增加,管理这些流程的复杂性也随之增加。因此,现在大多数组织都在使用云来构建自适应智能解决方案,因为云支持按需自动扩展和弹性计算。在本例中,我们使用各种 Oracle 云解决方案。这样,组织就可以轻松扩展其自适应智能解决方案,从仅内部部署环境的解决方案扩展到内部部署环境和云环境相结合的混合解决方案,最终扩展到完全部署在 Oracle 云上的解决方案。例如,大多数 Oracle 云应用都内置了自适应智能。有关这些 Oracle 云应用的详细信息,请参阅“内置自适应智能的 Oracle 云应用”一节。

已经着手构建自动化自适应智能解决方案的组织已经看到大幅节省。首先,节省了数据科学团队的宝贵时间。采用自动化自适应智能解决方案之后,数据科学家不必再反复重建模型并验证对机器学习模型的任何更改。数据科学家现在可以专注于新的业务问题,以及如何将各种数据科学方法应用于组织的其他领域,从而创造业务价值。

其次,自动化流程可大幅缩短识别和部署新的或改进的机器学习模型所需时间。这些模型的部署速度越快,就可以尽早发现欺诈,尽早节省资金,并且可以更快地产生额外的收入(“时间就是金钱”)。

自适应智能解决方案的组件

随着数据科学项目的发展,将开发许多不同的流程来帮助数据科学家执行常规任务。随着时间的推移,其中大部分任务将占用数据科学家的大部分工作时间。此时,要么数据科学团队的工作效率会显著降低,要么他们会开始构建自适应智能解决方案。

构建完全自动化的解决方案可能需要一些时间;许多团队开始在现有基础设施上进行构建。但是,他们很快意识到需要更多的存储和更多的技术组件。这时就需要创建一个混合解决方案,一些组件部署在内部,另一些则使用云服务。随着时间的推移,大多数组织将大部分自适应智能解决方案迁移至云端,而高级分析和机器学习解决方案的部署仍保留在内部部署生产环境中。

图 2 显示了自适应智能解决方案的典型组件。云平台与内部部署组件之间需要保持持续通信。这样就可以对数据进行持续监视和评估,并及时部署更新的机器学习模型。以下段落将概述自适应智能解决方案的主要组件,如图 2 所示。

自适应智能解决方案中需要定义的第一部分是业务领域数据定义信息库 (Business Area Data Definition Repository)。数据科学家可以通过它定义可供使用的各种源应用和数据元素。定义机器学习过程所需监视和提取的数据以及需要执行的各种数据处理任务。数学科学家需要在将每个机器学习过程和模型从实验室环境迁移至自适应智能流程的过程中定义这些信息。

需要持续监视数据源和所定义的数据,查找数据分布中的任何重大变化、新类别的数据以及数据量随时间的变化。数据监视流程将执行此任务,并且可以使用这些更改来更新业务领域数据定义信息库。这样,数据监视流程就能够确定何时适合启动模型构建工作区流程,然后可以检查数据,确定是否需要对机器学习模型进行任何更改。

自适应智能图 2

图 2:自适应智能解决方案的组件

当确定了需要更新的模型时,系统将启动数据收集流程。该流程从相关数据源中提取数据,并将数据加载到自适应智能解决方案的数据湖中。该数据湖作为主数据信息库,相同的数据可用于许多不同的机器学习模型。此外,根据收集数据所需时间,可以使用实时收集流程持续用新数据填充数据湖。

当所有数据都已放入数据湖中时,系统会启动数据分析和发现流程,对数据进行分析,确定各种数据元素的配置文件是否有任何变化以及是否可以确定任何相关性。通过数据和模型警报流程标记此过程中的所有变化和任何早期发现,并在自适应智能仪表盘中以可视化方式呈现。

为特定模型收集所有必要的数据之后,模型构建工作区流程便会启动。该流程会在模型历史信息库中查找之前使用过的机器学习算法。然后,将这些算法用于较新的数据,评估模型输出并对算法执行自我调优,最终确定最佳设置和结果。新开发模型生成的结果将与之前生成的模型进行对比,确定应当保留部署在生产环境中的现有模型,还是用新创建的模型替换它。此过程可以结合使用多种机器学习算法,包括数据库中算法、R 算法,Oracle R Enterprise(Oracle Advanced Analytics 中的一项特性)算法、Spark 算法等等。

在部署新模型时,用于在自适应智能解决方案中生成最佳模型的机器学习语言大多数情况下应当与所部署的生产环境中使用的语言相匹配。在这种情况下,新模型可以轻松复制到生产环境中以取代现有模型。有时,这两个环境可能有所不同。这时,可以使用预测模型标记语言 (PMML) 导出机器学习模型详细信息,然后导入到生产环境中。

构建自适应智能解决方案是一个庞大而复杂的过程,但是它可以为组织节省大量的人力和财力,最终快速收回投资。构建这样的解决方案可能花费很高且非常耗时,一方面可能是缺少技术基础设施,另一方面采购过程可能需要很长时间。使用现成的云解决方案可以避免大多数困难。

在 Oracle 云中构建自适应智能解决方案

大多数组织开始使用内部部署基础设施来构建此类解决方案。大多数情况下,这种方式适用于基于较少数据源的一个或少量机器学习模型。

随着机器学习模型数量以及数据源数量和复杂性的不断增加,组织需要使用一些基于云的解决方案协同作业以获得所需的可扩展性。正是这种云可扩展性让自适应智能解决方案跻身数据科学领域中的下一个技术浪潮之中。

Oracle 拥有丰富的平台即服务 (PaaS) 产品。新产品清单如图 3 所示,而且该清单在未来几个月中将继续增加。

自适应智能图 3a

图 3:Oracle 云 PaaS 产品

Oracle 大数据云服务是自适应智能解决方案的数据湖环节的理想解决方案。它可以存储从企业内部收集的一切必要数据。它还可以存储历史数据以及监视和更新机器学习模型所需的临时数据。

Oracle 大数据云服务还可以用作整体解决方案的信息库组件。它自带 Spark、Oracle R Advanced Analytics for Hadoop 和 Oracle Big Data Spatial and Graph,可提供丰富的高级分析和机器学习算法。

要管理和监视将各种源应用中的数据移动到 Oracle 大数据云服务的过程,有几种选择。对于为特定时间段或快照定义的数据复制和移动,可以使用 Oracle Data Integrator 云服务来管理数据移动。如果需要近乎实时的功能,可以使用 Oracle GoldenGate 云服务;如果希望发挥 Kafka 的强大功能,可以使用 Oracle 事件中心云服务。使用后两种云服务可以对数据进行更近乎实时的监视,而这又有助于更快地识别需要更新的模型。然后,可以更快地将较新的模型部署回生产环境中。

对于某些组织来说,Oracle 大数据云服务可能并不合适,因为它们的数据量不够大,无法证明其效用。这种情况下,可以使用数据库即服务 (DaaS),特别是该服务的超强或高性能版本。这两个版本内置数据库中机器学习选件 (Oracle Advanced Analytics),还包括 Oracle R Enterprise。因此,您可以使用 R 语言的高级分析和机器学习功能以及 Oracle 数据库。使用 DaaS 版本可以将自适应智能解决方案所需的一切企业数据和信息库置于一个云服务中。

采用 Oracle 云服务,您可以快速构建和调整解决方案,同时获得云的弹性和可扩展性。

内置自适应智能的 Oracle 云应用

对于一些组织来说,构建自适应智能解决方案看似遥不可及,但是此类解决方案目前应用非常普遍。正如高级分析和机器学习已经存在了几十年,自适应智能解决方案的实施也是如此。例如,许多 Oracle 应用从许多年前就已经开始使用机器学习,Oracle 现已支持自动更新和维护各种机器学习模型。下面列出了在 Oracle 云中可用并且内了置自适应智能的一些 Oracle 应用:

  • Oracle 客户体验云(Oracle CX 云)
  • Oracle 人力资本管理云(Oracle HCM 云)
  • Oracle 供应链管理云(Oracle SCM 云)
  • Oracle 企业资源计划云(Oracle ERP 云)
  • Oracle 物联网云服务
  • Oracle 学生云
  • Oracle 收入管理云
  • Oracle 财务整合和结算云服务
  • Oracle 企业绩效管理云(Oracle EPM 云)
  • Oracle 交互云,它是 Oracle 客户体验云的一部分

其中许多 Oracle 云应用使用 Oracle 数据云中的数据来补充在应用中收集和生成的数据。相比于定制开发的或可从各种其他供应商处获得的类似解决方案,这是云应用所具备的明显的优势。

如今,许多公司正在运用自适应智能的原则来构建可弥合数据科学家与最终用户之间的鸿沟的应用,这些 Oracle 应用就是其中的佼佼者。

总结

自适应智能是数据科学解决方案领域中的下一波技术浪潮。构建自适应智能解决方案的主要目的是能够在组织中自动化地构建、评估和部署高级分析和机器学习模型。为既定的数据科学解决方案自动执行这些流程,数据科学家就可以集中精力研究较新的应用领域,而不必花时间执行常规的、重复流程。

迁移至云端让组织能够逐步实施自适应智能解决方案的自动化。大多数组织的数据量不断增长、数据不断变化,Oracle 云服务提供了它们所需的弹性和可扩展性。

Oracle 提供了丰富的云服务,让组织能够选用符合其规模和需求的工具和云服务来构建其自适应智能解决方案的组件。随着时间的推移,还可以通过其他云服务来持续完善和高效地更新机器学习模型。能够尽快地使用这些模型,组织就可以更快地降低成本并节省更多成本。

关于作者

Brendan Tierney 是一位 Oracle ACE 总监兼独立顾问 (Oralytics),在都柏林理工学院/都柏林理工大学讲授数据科学、数据库和大数据。他在数据挖掘、数据科学、大数据和数据仓储领域拥有超过 24 年的工作经验。作为公认的数据科学和大数据专家,Tierney 曾参与了爱尔兰、英国、比利时、荷兰、挪威、西班牙、加拿大和美国的多个项目。他是英国 Oracle 用户组 (UKOUG) 社区的活跃成员,也是爱尔兰 Oracle 用户组的领导者之一。Tierney 还是 UKOUG Oracle Scene 杂志的编辑,经常在全球各地的各种会议上发表演讲,并为一些出版社写书。此外,他还出版了四本书,其中三本由 Oracle Press/McGraw-Hill 出版(《Predictive Analytics Using Oracle Data Miner》、《Oracle R Enterprise: Harnessing the Power of R in Oracle Database》和《Real World SQL and PL/SQL: Advice from the Experts》),一本由 MIT Press 出版(《Essentials of Data Science》)。