什么是数据科学?

谁来监督数据科学流程?

在大多数企业中,数据科学项目通常由三类管理者监管:

业务经理:业务经理与数据科学团队一起定义问题并制定分析策略。他们可能是营销、财务或销售等业务线负责人,数据科学团队需要向他们汇报。他们与数据科学团队和 IT 经理密切合作,以确保项目交付。

IT 经理:高级 IT 经理负责基础设施和架构设计,用于支持数据科学的运作。他们会持续监控运作和资源利用情况,以确保数据科学团队高效安全地运作。此外,他们可能还负责为数据科学团队构建和更新 IT 环境。

数据科学经理:数据科学经理监督数据科学团队及其日常工作。他们是团队建设者,能够平衡团队开发与项目计划和监控。

但在这个过程中,数据科学家才是主角。

什么是数据科学家?

作为一门专业,数据科学还很年轻。它源自于统计分析和数据挖掘领域。The Data Science Journal 于 2002 年由 International Council for Science: Committee on Data for Science and Technology 出版。2008 年,“数据科学家”的头衔出现了,数据科学领域迅速发展起来。从此以后,尽管越来越多的学院和大学开始设立数据科学学位,但数据科学家依然短缺。

数据科学家的职责包括:制定数据分析策略;准备要分析的数据;探索、分析数据并实施数据可视化;使用 Python 和 R 等编程语言用数据构建模型;将模型部署到应用中等。

数据科学家的工作不是独立的。事实上,较有效的数据科学是在团队中完成的。除了数据科学家,该团队可能还包括负责定义问题的业务分析师、负责准备数据和确定数据访问方式的数据工程师、负责基本流程和基础设施的 IT 架构师,以及负责将模型或分析结果部署到应用和产品中的应用开发人员。

实施数据科学项目面临的挑战

尽管许多企业看到了数据科学的前景并对数据科学团队投入了巨额资金,但他们并未意识到数据的全部价值。在人才招聘和数据科学项目创建竞争中,某些公司采用的团队工作流程效率低下。不同的人使用不同的工具和流程,无法高效协同工作。如果不进行更严格、更集中的管理,高管们可能无法获得全面的投资回报。

这种混乱的环境带来了很多挑战。

数据科学家不能有效地工作。由于访问数据需经 IT 管理员授权,因此数据科学家往往要等待很长时间才能获得其需要分析的数据和资源。获得访问权限后,数据科学团队可能会使用多种不兼容的工具来分析数据。例如,数据科学家可能使用 R 语言开发一个模型,但使用该模型的应用却是用另一种语言编写的。这就是为什么将模型部署到有效的应用中可能要几周甚至几个月的时间。

应用开发人员无法获得可用的机器学习。有时,开发人员接收到的机器学习模型并不能直接部署到应用中。而且,由于接入点不灵活,无法在所有场景中部署模型,应用开发人员还需要解决可扩展性问题。

IT 管理员在支持工作上花费太多时间。由于开源工具激增,IT 需要支持的工具越来越多。例如,营销团队和金融团队的数据科学家可能使用不同的工具。不同团队的工作流程也可能不同,这意味着 IT 团队必须不断重建和更新环境。

业务经理与数据科学脱节。数据科学工作流程并不总是会集成到业务决策流程和系统中,这导致业务经理难以与数据科学家进行信息全面的协作。如果集成欠佳,那么业务经理会难于理解为什么从原型到生产需要这么长的时间 — 并且他们不太可能对自己认为太慢的项目上的投资表示支持。

数据科学平台提供新功能

许多企业已经意识到,缺少了集成平台的数据科学工作是低效、不安全且难以扩展的。这种认识促成了数据科学平台的兴起。数据科学平台是所有数据科学工作所围绕的软件中心。一个优秀的平台可以减少数据科学实施过程中的诸多挑战,帮助企业更快速、高效地将数据转化为洞察。

有了集中的机器学习平台,数据科学家可以使用他们喜欢的开源工具在协作环境中工作,并可通过版本控制系统同步所有工作。

数据科学平台的优势

数据科学平台支持团队共享代码、结果和报告,从而减少冗余并推进创新。它通过简化管理和融合优秀实践,消除了工作流程中的瓶颈。

总的来说,出色的数据科学平台可以:

  • 帮助数据科学家加快模型交付速度并减少错误,进而提升工作效率
  • 让数据科学家能够更加轻松地处理大量不同类型的数据
  • 提供无偏见、可审计、可复制且值得信任的企业级人工智能

数据科学平台专为支持用户协作而构建,这些用户包括数据科学专家、大众数据科学家数据工程师和机器学习工程师或专家。例如,数据科学平台支持数据科学家将模型部署为 API,从而轻松将它们集成到不同的应用中。数据科学家无需等待 IT 干预即可访问工具、数据和基础设施。

市场对数据科学平台的需求激增。事实上,在接下来的几年里,平台市场预计将以超过 39% 的复合年增长率增长,在 2025 年将达到 3850 亿美元。

数据科学家需要哪些平台功能

在考察数据科学平台的功能时,一些应考虑的关键功能包括:

选择基于项目的 UI,以促进协作。该平台应让工作人员能够在从模型构思到最终开发的整个过程中开展协作。它应当支持所有团队成员自助访问数据和资源。

优先考虑集成和灵活性。确保该平台支持新的开源工具以及常见的版本控制提供程序,如 GitHub、GitLab 和 Bitbucket,并且与其他资源紧密集成。

包含企业级功能。确保该平台可以随着您团队和业务的发展而扩展。该平台应当具备高可用性和强大的访问控制,并支持大量并发用户。

为数据科学提供更强大的自助服务。 寻找一个能够减轻 IT 和工程设计负担的平台,让数据科学家能够轻松便捷地即时启动环境,跟踪所有工作,并轻松将模型部署到生产环境中。

简化模型部署。模型部署和运营是机器学习生命周期中非常重要的一个步骤,但经常被忽略。确保您所选择的服务有助于简化模型运营,无论该服务提供 API 还是可确保用户以易于集成的方式构建模型。

让使用数据科学平台成为一项明智举措

如果您注意到出现以下情况,则表示您的企业是时候使用数据科学平台了:

  • 在工作效率和协作方面力有不逮
  • 无法审计或复制机器学习模型
  • 从未将模型部署到生产环境中

数据科学平台可以为您的业务创造切实价值。Oracle 数据科学平台提供丰富的服务以及全面的端到端体验,以加速模型部署并改善数据科学成效。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。