Jeff Erickson | 技术内容策略师 | 2024 年 9 月 17 日
大多数人经常都会使用实时分析,即使有人可能并未察觉到。这种类型的分析主要在后台进行,比如帮助司机选择送货路线、在使用信用卡购物时扫描欺诈迹象以及帮助公用事业企业主动维护发电设备,保证电供不中断。
虽然并非每个企业都需要在几毫秒内根据数据采取行动,但实时分析仍在不断进步,让更多企业能够使用这项技术并享受其带来的业务优势。这也正在改变我们对分析的看法;实时分析不只是回顾发生了什么以及下次如何改进,更是一个即时的运营决策工具。
无论是通过网站点击量、社交媒体评论、交易还是传感器,实时分析都能获取数据,将这些数据导入系统以进行分析并立即采取行动。某些业务流程中的实时分析可以在几毫秒内运行,从多个来源提取数据,将数据输入到系统中进行整理和分析,然后由自动化系统采取行动,或将结果以图形、文本或语音的形式传达给人们。这种操作适用于帮助票务根据需求调整价格、航空公司更新航班状态,或者在银行的 AI 算法认为某项收费有问题时立即向您发出通知。
实时数据分析系统可以利用结构化和非结构化数据源。结构化数据来自可预测且一致的格式,例如业务应用。非结构化数据(有时称为大数据)需要额外的处理过程,主要来自社交媒体网站、文本文档和视频等来源。数据分析系统可以将这两种数据源类型相结合,以进行更丰富的分析,然后以人们可以轻松理解和采取行动的方式来呈现结果。
支持实时分析的技术包括有数据库和数据湖、机器学习 (ML) 算法、数据集成工具、编程语言、数据科学笔记本以及各种开源项目。结合使用机器学习,实时分析系统不仅可以在当下帮助制定决策,还可以发现隐藏在运营数据中的趋势、瓶颈或商机。
关键要点
实时分析是其中一种数据分析,在数字型企业中越来越受欢迎。作为传统数据分析的衍生物,实时分析使用多种相同的技能集。传统分析(通常称为批量分析)是一个较慢的过程,其中需要准备存储大量的数据,然后将其发送到分析平台,从而在仪表盘中生成图形或图表。这些可能是几小时、几天、几周甚至几个月前的数据,主要用于描绘过去发生的事情。无论是过去还是现在,这些数据都是帮助指导未来决策的重要资源。
与传统数据分析不同,实时分析是专注于当下正在发生的事情。实时分析无需存储数据以及使用提取、转换和加载 (ETL) 的复杂技术流程定期将其移动到分析系统中,而是能够立即将数据推送到系统中进行分析和操作,通常在创建后仅需数毫秒即可完成。这也就不难理解为什么有时实时分析也称为流式分析了。
许多企业正在从批处理转向实时处理,从请求驱动的架构转向事件驱动的架构,以实现更多的自动化。
许多数据管理架构可以支持实时分析,但数据库内分析因其简单性而越来越受欢迎。数据库内分析让分析师可以在存储数据的地方执行分析,而不必采取额外的、耗时的步骤将大型数据集 ETL 到单独的分析数据库。Forrester 的分析师将此数据库内分析模型称为“事务处理”平台,通过将事务和分析功能结合在一起,可以更轻松地维护数据完整性并进行大规模分析。
无论是帮助零售商店预测需求,还是营销机构在毫秒内加速制定目标决策,人们发现实时分析的即时洞察是做出决策或自动执行操作的宝贵工具。
实时分析可为企业提供当前采取行动所需的信息,无论是改变驾驶路线、应对制造问题、改变营销活动还是更新供应链合作伙伴。
有关客户订单或服务请求的实时洞察可提供更顺畅、更个性化的客户体验。
企业可以实时调整价格、更改产品组合或更新产品可用性,从而提高效率和收入,而这些是数字化程度较低的竞争对手无法做到的。
实时分析可以帮助营销人员识别趋势。通过结合销售和社交媒体情绪等多种因素的分析,该技术可以调整信息,甚至是推荐产品改进方案,抢先在竞争对手之前把握趋势。
想要创建实时分析所需的集成且可扩展的数据基础设施,一般上规划、专业知识和资金缺一不可。实时分析面临着诸多挑战,而其中的一个关键因素是需要构建一个足够强大且高效的架构,以便实时进行数据收集、集成和分析。然而,如果服务不可靠,复杂的架构可能会导致停机并给工程师带来麻烦,还可能会降低采用率。以下这三个步骤可帮助企业克服这些挑战。
实施实时分析的重大挑战之一是需要考虑所有相关数据源。例如,零售应用会从产品供应商获取数据,并将数据提供给财务会计软件和客户服务应用。实时分析计划的正确来源可能位于企业内部或外部,其中包括了结构化或非结构化数据。IT 团队可以使用多种工具来查找和编目数据源。
一旦团队确定了数据源,数据就必须集成到可供分析系统使用的数据流中。此步骤通常需要一个集成平台来提供从多个来源提取数据所需的 API 和预构建连接器。
由于实时分析源自基于业务活动发生变化的数据源,因此数据量难以预测。分配给实时分析的计算资源必须针对可能性更高的用例进行配置,或者建立在可以根据不断变化的需求进行扩缩容的云技术服务上。
结构化数据和非结构化数据都可以在实时分析系统中使用。事实上,许多实时系统之所以如此有价值,是因为它们将两者结合起来进行分析,为企业快速描绘出更清晰的画面。正如其名,这两种类型的数据完全不同:结构化数据采用一致、可预测的格式,来自业务应用等来源,因此更易于放入关系数据库。非结构化数据缺乏可预测的格式;这些数据来自社交媒体馈送、客户评论表、文本文档或视频等来源,然后在实时分析系统中进行格式化。
数据类型 | 定义 | 关键差异化因素 | 示例 |
---|---|---|---|
结构化数据 | 以明确定义的格式组织的数据 | 易于排序、跟踪、分类并放置在关系数据库 | 销售结果、调查回复、客户地址或采购历史记录 |
非结构化数据 | 不遵循预定格式的数据 | 难以融入关系数据库 | 电子邮件文本、社交媒体帖子、音频、视频 |
实时数据分析过程将依赖于企业整体数据管理实践的质量。企业数据管理软件应该具备快速扩展、整合多种来源数据、确保数据质量和强有力的治理能力,当然还要优先考虑数据安全。以下是需要考虑的优秀实践。
首先,您需要问一个问题:这个实时分析引擎适合谁使用?这种引擎不太可能在整个公司范围内实施,因此您需要评估整个部门都使用该引擎,还是仅有个别用户会使用。拥有一套明确且集中的目标将有助于完成这项评估。理清这个问题可帮助您决定需要访问企业内部和外部的哪些数据源。在这个过程中,您需要问的另一个问题是:如果您拥有更多或更好的数据,您在追求目标时是否会更有动力?
尽量减少数据移动或 ETL 流程的次数。ETL 流程可能会导致延迟,随着数据在数据存储之间移动,还会增加数据安全性和合规性风险。当前的趋势是使用数据库内分析,在事务处理数据库中执行数据处理,避免将大型数据集移动到单独的分析数据库中。
根据近期的一项调研发现,即使是中型企业,平均使用的付费 SaaS 产品也多达 20 种。再算上本地软件和其他第三方或非结构化数据源,市面上有很多产品供您选择。因此,您需要了解实时分析计划需要用到哪些产品。
不同的机器学习模型会用不同的角度来看待数据,并提供不同类型的洞察。企业可以训练 ML 模型,以用于回归或分类任务、异常检测等用途。除了获得实时洞察之外,机器学习还可以帮助企业检测趋势,更快地做出决策,并自动执行操作或提供推荐方案。
合适的数据工具可以帮助您构建实时分析系统。如果使用 ETL 流程,您就需要利用工具来提取数据、清理和转换数据集,并将其导入适当的系统。
有两种方法可以跟踪实时分析的性能。第一种方法是纯人工,也就是与企业中负责汇报现场情况的员工建立关系,以了解工厂车间是否运行得更加顺畅?客户是否获得了所需的自动化信息?第二种方法则是监控您的数据流程,以识别负面趋势和瓶颈并及时响应。
实时分析系统可能包含多个数据源和依赖项。当业务环境发生变化时,请务必确保您的实时分析系统和使用该系统的员工能够记录该问题,并已建立好解决问题的流程。
Tetris.co 是一家总部位于巴西的企业,展示了企业如何让决策者直接访问实时分析并从中获益。该公司将来自多个媒体来源的数据整合到 MySQL 数据库中,并使用实时分析来了解广告投资的回报。该公司通过迁移到 HeatWave MySQL 实现了软件所需的速度,可直接从 MySQL 数据库运行事务处理和实时分析工作负载,而无需移动数据并与其他独立的分析数据库相集成。通过将投资从表现不佳的广告平台转移到表现更好的渠道,高性能系统可帮助前线分析师更快地了解趋势并改善营销效果。
许多技能和工具可以帮助企业建立一个成效显著的实时分析系统,其中包括用于数据建模、数据质量和数据可视化的工具。首先,您可以考虑当前的软件和技能。例如,使用 MySQL Database 进行事务处理的企业可以选择基于云技术的版本,该版本可提供数据库内分析以及数据库内机器学习,无需使用 ETL 数据来分开分析和机器学习系统。
如果您的企业想要获得实时分析的优势,HeatWave MySQL 可为您提供一个强大的解决方案。HeatWave MySQL 是一项完全托管的服务,由集成的 HeatWave 内存中查询加速器提供支持。该服务可以提供实时分析,而不会产生 ETL 复制的复杂性、延迟、风险和成本。
借助 HeatWave MySQL,您可以访问一系列内置的 HeatWave 功能,以支持分析、机器学习和生成式 AI。HeatWave Lakehouse 让用户可以以各种文件格式(例如 CSV、Parquet、Avro、JSON)在对象存储中查询多达半 PB 的数据以及从其他数据库导出的数据,还可以选择性将其与 MySQL 中的数据结合使用。HeatWave AutoML 和 HeatWave GenAI 具备集成式自动化机器学习和生成式 AI 的优势,无需跨云技术服务进行 ETL。
实时分析有哪些例子?
在商业中,有很多实时分析的例子。以 FANCOMI 为例,该公司的目标是成为一个大型绩效营销广告网络,让广告主在达到营销目标时才付费,而不是像传统方式那样在投放广告时付费。该公司使用实时分析,每天 24 小时监控和衡量 20000 个广告对 260 万家机构和媒体网站的影响。
企业为何需要实时分析?
数字化系统(包括物联网传感器、社交媒体网站和应用以及在线零售)以及 CRM、ERP 和人力资本管理 (HCM) 等后台系统都在以前所未有的方式生成数据。有鉴于此,那些能够快速理解运营数据洪流以了解业务变化并做出正确决策的企业将能够在竞争中脱颖而出。
实时分析如何改善决策?
实时分析所使用的是高度相关的数据,也就是刚刚生成的数据。对于那些没有使用实时分析的企业,他们可能会使用过时的数据来进行分析,并据此做出重要决策。
了解如何利用生成式 AI、构建机器学习模型、在对象存储中查询数据,或者探索其他感兴趣的 HeatWave 主题。
注:为免疑义,本网页所用以下术语专指以下含义: