什么是大数据?

Michael Hickins | 内容策略师 | 2024 年 9 月 23 日

根据普华永道 (PwC) 的定义,大数据指的是人类和机器每天产生的海量结构化和非结构化信息,每日信息量可达 PB 级。例如,我们从社交媒体帖子中挖掘的客户情绪,显示机器状态的传感器数据,涉及超快速资金流动的金融交易等。这些数据不仅体量太大、太多样化,而且来得太快,老式的数据处理工具和方法根本无法应对。

这些数据有着很高的价值,不加以分析就太可惜了。大数据具备从这些来源广泛的数据中提取洞察的能力,可帮助企业提高效率、加快创新速度、提高盈利并取得全面胜利。

幸运的是,分析和机器学习技术和工具的进步,让每家企业都可以使用大数据分析。

什么是大数据?大数据的定义

大数据是指非常庞大和复杂的数据集,这些数据集无法使用传统的数据处理工具(尤其是电子表格)轻松管理或分析。大数据包括了结构化数据(例如库存数据库或金融交易列表)、非结构化数据(例如社交媒体帖子或视频)以及混合数据集(例如用于训练 AI 大型语言模型的数据集)。这些数据集涵盖了任何内容,包括从莎士比亚的作品,到企业过去 10 年的预算电子表格。

众多前沿技术突破,令数据存储和计算成本呈指数级下降,企业能够以更低的经济投入,更轻松地存储更多数据,进而推动了大数据蓬勃发展。借助更多的数据,企业可以轻松做出更准确、更精准的业务决策。然而,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。

大数据的五个“V”指的是什么?

传统上,我们通过三大特性来识别大数据:多样化 (Variety)、大量 (Volume) 和高速 (Velocity),简称为“3V”。在过去几年,大数据又新增了两个 V 特性:价值 (value) 和真实性 (veracity)。

添加这两个 V 特性是很合理的,因为大数据如今已成为一种资本,全球各个大型技术公司无不基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,许多产品都来自于他们掌握的数据。由此可见,成败取决于所有五个 V 特性。

  • Volume(大量)。大数据的“大”首先体现在数据量上。这意味着您需要处理海量、低密度的非结构化数据。这些数据的价值可能是未知的,例如 X(以前称为 Twitter)的数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB,甚至数百 PB。
  • Velocity(高速)。大数据的“高速”指高速接收乃至处理数据 — 数据通常直接流入内存而非写入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备“高速”特性才能满足这些要求。
  • Variety(多样)。多样化是指数据类型众多。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。
  • Veracity(真实性)。只有真实、可靠的数据才有意义。数据中的真实性与数据质量和数据完整性等其他功能概念相关联。最终,所有这些都会重叠在一起,整合到一个数据存储库中,该存储库可提供高质量、准确和可靠的数据,支持企业获取洞察并做出决策。
  • Value(价值)。首先,数据固然蕴含着商业价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。大数据可提供广而深的洞察,因此任何信息都有可能隐藏着能够惠及您的企业的洞察。而大数据的价值可以是内部价值,例如可以优化的操作流程,也可以是外部价值,例如可以尽可能提高互动程度的客户档案推荐。

大数据的演变:过去、现在和未来

虽然大数据这个概念是最近才提出的,但早在上世纪 60 - 70 年代就已经出现了对大型数据集的管理需求,而全球第一批数据中心和首个关系数据库便是在那个时代出现的。

过去。2005 年左右,人们开始意识到用户在使用 Facebook、YouTube 以及其他在线服务时生成了海量数据。同一年,专为存储和分析大型数据集而开发的开源框架 Apache Hadoop 问世,NoSQL 也在同一时期开始慢慢普及开来。

现在。Apache Hadoop 及后来 Apache Spark 等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界的“用户”— 不仅有人,还有机器 — 仍在持续生成海量数据。

如今,随着物联网 (IoT) 的兴起,越来越多的设备接入了互联网,收集了大量的客户使用模式和产品性能数据。同时,机器学习的出现也进一步加速了数据规模的增长。

未来。大数据已经出现了很长一段时间,但直到生成式 AI 和云计算在企业中的使用越来越多后,大数据的价值才开始提升。通过提供真正的弹性 / 可扩展性,它让开发人员能够轻松启动 Ad Hoc 集群来测试数据子集。此外,图形数据库在大数据领域也变得越来越重要,它们能够以独特的形式展示大量数据,帮助用户更快速执行更全面的分析。

大数据的优势

大数据服务可整合各种数据集并生成完整的视图,助您更全面地了解趋势和模式。这种融合不仅有助于进行回顾性分析,还加强了预测能力,从而实现更准确的预测和策略性决策。此外,与 AI 相结合的大数据可以超越传统分析,让企业能够解锁创新解决方案并取得转型成果。

更全面的洞察意味着更高的可靠性,有助于您开发全新解决方案。

  • 改善洞察。当企业拥有更多数据时,他们就能够获得更好的洞察。在某些情况下,扩大数据来源有助于将直觉与更多样化的环境进行对比。在其他情况下,更大的数据池可以发现以前未发现过的隐藏关系,从以前可能错过的视角看待事物。所有这些都让企业能够更全面地了解各种事情的来龙去脉,特别是在自动化可以更快、更轻松地处理大数据的时候。
  • 决策。通过更好的洞察,企业可以通过更可靠的预测来制定数据驱动的决策。当大数据与自动化和分析相结合时,它将带来一系列的可能性,包括更新的市场趋势,社交媒体分析和为风险管理提供信息的模式。
  • 打造个性化客户体验。借助大数据,企业可以结合客户销售数据、行业人口统计数据以及社交媒体活动和营销活动参与度等相关数据来构建客户档案。在没有自动化和分析的时代,这类个性化涉及范围十分广泛,几乎是不可能实现的;有了大数据,这种细粒度可以提高参与度并改善客户体验。
  • 提高运营效率。每个部门都会产生数据,有的时候团队可能并没有意识到这一点。这意味着每个部门都可以从运营层的数据中受益,例如检测流程异常、识别维护和资源使用的模式以及突出显示人为错误的隐藏驱动因素等。无论是技术问题还是员工绩效问题,大数据都能提供洞察,帮助企业了解运营情况以及如何加以改进。

大数据用例

从客户体验到智能分析,大数据可帮助您轻松优化各种业务活动。以下是企业运营中的常见大数据使用场景,

1. 零售和电商。Netflix 和 Procter & Gamble 等公司利用大数据来预测客户需求。他们对过去和当前产品或服务的关键属性进行分类,并对那些属性和成功商业产品之间的关系进行建模,从而为新产品和服务构建预测模型。此外,P&G 还根据来自焦点小组、社交媒体、试销市场和前期铺货的数据和分析结果来规划、生产和发布新产品。

2. 医疗卫生。医疗卫生行业可以整合多个数据源,例如内部的电子健康记录、患者可穿戴设备和人员配备数据,以及外部的保险记录和疾病研究等,进而优化医疗提供方和患者的体验。在医疗机构内部,人员配备计划、供应链和设施管理可以使用运营团队提供的洞察进行优化。对于患者来说,他们的即时和长期护理服务都可以通过由数据驱动来改善,例如个性化推荐和预测性扫描。

3. 金融服务。在今天,您的系统面临的威胁远不止几个心怀不轨的攻击者,还有人员配置完善的专家团队。同时,安全形势与合规要求也在不断变化,带来了重重挑战。借助大数据,您可以通过识别数据模式发现欺诈迹象,汇总海量信息,加速生成监管报告。

4. 制造。各种结构化数据(例如设备年份、品牌、型号等信息)以及非结构化数据(包括数以百万计的日志条目、传感器数据、错误消息和引擎温度)中往往深藏着可供预测机械故障的信息,通过分析这些数据,企业可以在事故发生前识别潜在问题,从而更加经济高效地安排维护活动,充分延长零部件和设备的正常运行时间。

5. 政府与公共事业。政府单位可能会从许多不同的来源收集数据,例如 DMV 记录、交通数据、警察/消防员数据、公立学校记录等。因此,这类单位可以通过许多不同的方式来提高效率,例如监测驾驶员趋势以优化交叉口管理,以及更好地分配学校资源。政府还可以公开发布数据,从而提高透明度,提高公众的信任度。

大数据的挑战

大数据蕴含着无穷潜力,同时也带来了诸多挑战。

首先,大数据体量庞大。分析师发现,虽然人们为数据存储开发了许多新技术,但数据量却在以每两年翻一番的速度增长。许多企业难以跟上数据快速增长的步伐,不断寻找更高效的数据存储方式,但仅仅是降低数据量是无济于事的。

其次,仅以实惠和可访问的方式存储数据是不够的。数据的价值在于运用,而这又取决于数据管理。经过精心整理的数据,即与客户相关并以能够进行有意义分析的方式整理的数据并不是凭空出现的。我们需要做很多工作才能获得这些数据。许多企业的数据科学家在真正开始使用数据之前,通常要耗费 50% 到 80% 的时间来管理和准备数据。

即使所有这些数据都存储在企业的存储库中,仍然存在着两个重大挑战。首先,数据安全和隐私需求会影响 IT 团队管理这些数据的方式。这些需求包括遵守区域/行业法规、加密以及基于角色的敏感数据访问。其次,数据只有在被使用时才可以发挥作用。培养数据驱动的文化具有一定的挑战性,特别是如果一直以来的政策和做事方式已经深深刻在了您的企业文化中。像自助服务分析这样新的动态应用可以改变几乎任何部门的游戏规则,但 IT 团队必须投入时间和精力进行教育和培训,帮助员工熟悉相关技术;这是一项长期的投资,可以带来重大的组织性变革,帮助企业获得洞察并进行优化。

最后,大数据技术的更新速度非常快。几年前,Apache Hadoop 是广为流行的大数据处理技术。2014 年,Apache Spark 问世。如今,各种技术的结合为大数据市场带来了新的突破。与时俱进将会是一个持续性的挑战。

大数据的工作原理

大数据可为您提供全新的洞察,助您了解新的商机和业务模式。摄取数据后,利用大数据还涉及以下三项关键行动:

1. 集成

大数据首先需要将来自不同来源和应用的数据汇集在一起,然而传统的数据集成机制,例如提取、转换和加载 (ETL),通常无法胜任这一工作。换言之,我们需要新的策略和技术来分析 TB 甚至 PB 级的大数据集。

在集成时,您需要导入和处理数据、执行格式化操作,以符合业务分析师要求的形式整理数据。

2. 管理

大数据需要妥善存储。存储解决方案可以部署在本地,也可以部署在云端。其次,您可以采用任何形式存储数据,根据需要为数据集设置处理要求,引入必要的处理引擎。目前,许多客户都不得不根据数据当前所在位置来选择存储方案。对此,数据湖不仅能够满足客户当前的计算需求,同时还支持用户按需、快速地访问所有数据,越来越受到人们的青睐。

3. 分析

只有真正分析数据并根据数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以对各种数据集进行可视化分析,以获得全新的理解。进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能构建数据模型;让您的数据为您的企业所用。

大数据优秀实践

为帮助您成功开启大数据之旅,我们基于大数据工作原理,从各种大数据用例中总结了一些重要的优秀实践。这些原则有助于奠定成功的大数据基础。

1. 协调大数据与特定业务目标

更全面的数据集有助于您获得全新洞察。为此,您首先需要进行新的技能、组织和基础设施投资,在一种业务驱动的环境中保证项目持续获得投入和资金。其次,为确保正确实施,请评估您的大数据能否真正支持并促进您的关键业务和 IT 工作,这些任务可能包括:了解如何筛选网络日志以揭示电子商务行为,通过社交媒体和客户支持互动推断客户舆情,以及了解统计相关法及其与客户、产品、制造和工程数据的相关性。

2. 通过标准化和有效治理缓解技能短缺

要想从大数据投资中获益,需要克服的一大障碍就是具备必要是数据分析技能的员工不足。首先,通过在 IT 治理计划中添加大数据技术、大数据考量和决策,您可以缓解这一风险。其次,标准化有助于更好地管理成本和充分利用资源。第三,为顺利实施大数据战略和解决方案,请及早并定期评估大数据技能需求,主动识别潜在技能缺失。第四,您需要培训 / 交叉培训现有人员、招聘新人员,并在必要时寻求咨询公司的支持。

3。 通过卓越中心优化知识转移

通过设立卓越中心来分享知识、控制监管、管理项目沟通,无论大数据项目是全新投资还是扩展性投资,您都可以在整个企业范围内分摊所有软件和硬件成本,以一种更加结构化和系统化的方法扩展大数据功能,提高整体信息架构的成熟度。

4. 通过协调结构化和非结构化数据充分获得回报

大数据分析可以带来价值,但将低密度的大数据与您目前使用的结构化数据整合到一起,您可以获得更有意义的深度洞察。

在实际应用中,无论是捕获客户、产品、设备还是环境大数据,您的目标都是向核心主数据和分析摘要添加更多相关数据点,从而得出更准确的结论。例如,相比所有客户的舆情,仅优质客户的舆情更加细化,更有针对性。因此,许多人将大数据视为其现有商务智能功能、数据仓储平台以及信息架构的重要扩展。

对此,大数据既可以基于人也可以基于机器来构建分析流程和模型。利用分析模型以及大数据分析功能(包括统计、空间分析、语义、交互式探索以及可视化),您可以将不同类型和来源的数据关联起来,得出有意义的洞察。利用分析模型,您可以将不同类型和来源的数据关联起来,并得出有意义的洞察。

5. 打造高效的探索实验室

探索数据价值绝非一条坦途,有时候我们甚至不知道前进的方向,这些都在我们的意料之中。因此,管理团队和 IT 部门应该支持这种“漫无目的”或者“缺乏明确需求”的探索活动。

与此同时,分析师和数据科学家也需要与业务部门密切合作,在合作过程中确定自身需要哪些关键业务知识及存在哪些知识缺口。最后,为了实施交互式数据探索和统计算法试验,您需要一个高效的工作区,需要为沙盒环境提供支持并进行适当监管。

6. 与云端运营模式保持一致

大数据流程和用户需要访问各种资源来进行迭代试验和生产工作。对此,大数据解决方案应覆盖所有数据区域,包括事务、主数据、参考数据以及摘要数据。支持您按需创建分析沙盒。同时,资源管理对于整个数据流(包括预处理和后处理、集成、数据库内汇总和分析建模)的控制至关重要,妥善规划的私有云和公有云供应及安全性策略对于满足这些不断变化的需求也有着非常重要的意义。

了解有关 Oracle Big Data 的更多信息

对于需要高效且全面地管理大数据的企业,Oracle Cloud Infrastructure (OCI) Big Data 平台提供了各种功能,性价比超高。OCI 是一个完全托管、支持自动缩放且具有弹性的大数据平台,以按量计费模式提供,可将所有数据整合在一起。

大数据的数量、速度和种类使得获得有意义和切实可行的洞察变得具有挑战性,但如果企业投资于从数据中提取有价值的信息所需的工具和专业知识,就可以发现丰富的洞察,让决策者能够基于事实来制定策略,而不是仅凭猜测。

没有数据,就没有 AI;而且数据越多越好。立即下载我们的报告,了解如何通过检索增强生成 (RAG) 和向量搜索快速取得成功,鼓励更多人采用 AI 并丰富 AI 的输出结果。

大数据的常见问题解答

“大数据”是什么意思?

大数据是指非常庞大和多元化的数据集,这些数据集无法使用传统的数据处理方式和工具轻松管理。

大数据有哪些示例?

大数据有五个 V 的特性:包含大量 (Volume) 信息,可高速 (Velocity) 生成数据,具有多样化 (Variety) 的数据类型,并且强调数据的真实性 (Veracity) 和价值 (Value)。大数据的来源包括电子邮件和文本、视频、数据库、物联网传感器数据、社交媒体帖子、网页等。

此外,依赖于数据驱动决策的行业包括医疗卫生、零售、金融和营销等。在医疗卫生行业,大数据可用于挖掘大型数据集,以预测患者何时可以从某种疾病(例如 2 型糖尿病)的早期干预中受益。在零售业,大数据可以帮助企业优化库存,并提供个性化的优惠和产品推荐。在金融行业,大数据可用于欺诈检测和更好的趋势发现,而营销人员则可以跟踪大量非结构化社交媒体数据,以检测情绪并优化广告活动。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。