什么是数据湖仓一体?

数据仓库 + 数据湖 = 数据湖仓一体

数据湖仓一体可以定义为由数据湖和数据仓库组合构建的现代数据平台。更具体地说,数据湖仓一体拥有数据湖的非结构化数据的灵活存储特性,以及数据仓库的管理功能和工具,然后战略性地将两者作为一个更大的系统一起实施。这两个工具的集成,为用户带来了两全其美的结果。要进一步认识数据湖仓一体,您需要先充分了解两个原始术语的定义

数据湖仓一体、数据湖与数据仓库的区别

当我们提到数据湖仓一体时,我们指的是现有数据存储库平台的组合使用:

那么,数据湖仓一体如何合二为一?一般上,数据湖仓一体能够打通数据湖和数据仓库之间的围墙。这意味着数据可以轻松地在数据湖的低成本和灵活存储之间迁移到数据仓库,反之亦然。这样,您可以轻松访问数据仓库中基于机器学习和人工智能的管理工具,进行数据清理以实施模式和治理。这形成了一个数据存储库,同时拥有数据湖经济实惠的非结构化数据集以及数据仓库的准备就绪。数据湖仓一体提供从精选数据源收集数据的空间,同时使用为业务准备数据的工具和功能,进而加速流程。在某种程度上来说,数据湖仓一体也是数据仓库,其概念起源于 20 世纪 80 年代初,在数据驱动的现代世界中被赋予新定义。

数据湖仓一体的特性

认识了数据湖仓一体的一般概念后,让我们再深入了解一下其中的具体内容。数据湖仓一体与以前数据湖和数据仓库概念有许多相似之处,但它已将这两个概念整合成全新的概念,更适合今天的数字世界。

数据管理特性

数据仓库主要提供数据管理功能,例如数据清理、ETL 和 Schema 实施。这些特性作为快速准备数据的一种方式存在于数据湖仓一体中,确保来自精选数据源的数据自然协同工作,并为进一步的分析和商务智能 (BI) 工具做好准备。

开放存储格式

使用开放和标准化的存储格式,意味着确保来自精选数据源的数据从一开始就能够协同工作,为下一步的分析或报告做好准备。

灵活的存储

您可以根据需要将计算与存储资源隔开,从而轻松扩展存储。

支持流处理

许多数据源通过实时流处理直接处理来自设备的数据。与标准数据仓库相比,数据湖仓一体能够更好地支持这种类型的实时摄取。随着世界与物联网设备的结合越来越紧密,实时支持也变得越来越重要。

各种工作负载

由于数据湖仓一体集成了数据仓库和数据湖的功能,因此非常适合处理多种不同的工作负载。从业务报告到数据科学团队再到分析工具,数据湖仓一体的内在品质可以支持企业内不同的工作负载。

数据湖仓一体的优势:现代数据平台

通过构建数据湖仓一体,企业可以使用统一的数据平台,简化整体数据管理流程。数据湖仓一体可以打通多个资料档案库,取代多个单独的解决方案。这种集成有助于针对精选数据源创建更高效的端到端流程,这带来了以下优势:

  • 减少管理任务:通过使用数据湖仓一体,用户可以访问和整合任何与其相连的数据源,而无需从原始数据中提取数据,并在数据仓库内执行准备工作。
  • 更好的数据治理:数据湖仓一体通过整合资源和数据源来简化和改善治理,它采用标准化的开放 schema 构建,可以更好地控制安全性、指标、基于角色的访问和其他关键管理元素。
  • 简化标准:数据仓库起源于 20 世纪 80 年代,当时的连接性十分有限,这意味着本地化模式标准通常是在企业内,甚至是在部门内创建的。今天,许多类型的数据都支持开放的 schema 标准,数据湖仓一体利用这一优势,以重叠的标准化模式摄取多个数据源,从而简化流程。
  • 提高成本效益:数据湖仓一体采用支持计算和存储分离的基础设施,从而轻松增加存储,而无需增强计算能力。因此,您可以轻松使用低成本数据存储,实现经济高效的扩展。

某些企业会选择构建数据湖仓一体,某些企业则会选择购买数据湖仓一体云技术服务。

客户成功案例:数据湖仓一体

益博睿视频缩略图
益博睿

益博睿在将关键数据工作负载迁移到 OCI 上的数据湖仓一体后,性能提高了 40%,成本降低了 60%,进而加快数据处理和产品创新,同时扩大全球信贷机会。

Generali 视频缩略图
Generali

Generali Group 是一家意大利保险公司,拥有庞大的客户群。Generali 有许多数据源,包括来自 Oracle Cloud HCM 以及其他本地和区域性数据源。该企业在人力资源决策过程和员工敬业度方面遇到了挑战,需要一个解决方案来提高效率。通过将 Oracle Autonomous Data Warehouse 与 Generali 的数据源相集成,可有效打通孤岛并为所有 HR 分析创建单一数据源。这提高了人力资源人员的效率和生产力,让他们能够专注于增值活动,而不是生成报告。

Lyft 视频缩略图
Lyft

全球知名拼车服务提供商 Lyft 曾使用 30 个不同的金融孤岛系统。这种隔离性不仅阻碍了企业发展,还减缓了流程。通过将 Oracle Cloud ERP、Oracle Cloud EPM 与 Oracle Autonomous Data Warehouse 相集成,Lyft 能够将财务、运营和分析整合到一个系统中。这使得关账的时间缩短了 50%,让企业能够进一步简化流程。同时,Lyft 也减少了闲置时间,进而节省了成本。

Agroscout 视频缩略图
AgroScout

Agroscout 是一家软件开发商,致力于帮助农民生产健康和安全的农作物。为了增加粮食生产,Agroscout 利用无人机检查农作物是否受害虫或疾病感染。该企业需要一种高效的方式来整合和处理数据,以识别威胁农作物的种种迹象。通过使用 Oracle Object Storage Data Lake,无人机可以直接上载农作物的图像。机器学习模型是使用 OCI Data Science 构建的,用于处理图像。其结果是一个大大改进的过程,能够快速响应以增加粮食产量。

了解 OCI 为何是构建数据湖仓一体的理想平台

随着时间的推移,越来越多的数据源正在全球范围内发送大量数据。对于任何企业来说,这种结构化和非结构化数据的组合仍然是一个挑战。数据湖仓一体可将不同的输出数据连接和关联到一个可管理的系统中并加以分析。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。