数据管理是一种关于安全、高效、经济地收集、存储和使用数据的实践,其目标是帮助人、企业和联网设备在策略和法规的范围内优化数据使用,进而做出明智的决策并采取行动,为企业创造尽可能高的收益。如今,企业越来越依赖数据这一无形资产来创造价值,强大的数据管理策略比以往更加重要。
现代企业需要通过一系列任务、策略、步骤和实践来管理数字数据。数据管理工作范畴广泛,包括如何:
因此,一个理想的数据管理策略应全面解决用户和管理员活动、数据管理技术功能、监管法规要求以及企业从数据中获取价值的需求等 4 大问题。
在当今数字经济中,数据是一种资本,是影响数字产品和服务生产的经济因素。就像汽车制造商缺乏金融资本无法造新车一样,它缺少了支撑自动驾驶算法的数据也无法让它的汽车自主运行。而无论是对于企业的竞争策略还是未来的计算行业,数据的这一新的角色都将产生深远的影响。
由于数据不可替代的核心地位,强大的数据管理和可靠的数据管理系统对于任何规模或类型的组织都至关重要。
当今的组织需要一种能跨广泛但统一的数据层高效管理数据的解决方案。而数据管理系统一般基于数据管理平台而构建,涵盖数据库、数据湖和数据仓库、大数据管理系统、数据分析及其他方面。
所有这些组件一起组成了一个“工具公用设施”,提供组织需要的数据管理功能来支撑应用的运行和用这些应用产生的数据进行分析和计算。目前,尽管很多工具都可以帮助数据库管理员 (DBA) 自动处理许多传统管理任务,但由于大多数数据库部署的规模和复杂性的原因,人工干预仍然不可或缺。而每当需要人工干预时,出错几率就会升高。对此,减少手动数据管理是新型数据管理技术,即自治数据库的核心目标。
持续集成 (CI) 是软件持续交付中最关键的一个步骤。在 CI 开发实践中,开发人员将其代码更改(通常是细微和增量更改)提交到一个集中的源代码存储库,而这会启动一系列自动构建和测试。此存储库可自动、及时为开发人员捕获错误,从而避免错误传递到生产环境中。持续集成管道通常涉及一系列步骤,包括代码提交、执行基本自动检查 (linting)/静态分析、捕获依赖项、构建软件以及在创建构建工件之前执行一些基本单元测试。Github、Gitlab 等源代码管理系统提供 webhooks 集成,Jenkins 等 CI 工具可以订阅这些集成,以便在每一次代码签入后运行自动构建和测试。
数据管理平台是用于收集和分析整个组织中海量数据的基础性系统。目前,商用数据平台通常包含来自数据库供应商或第三方供应商的数据管理软件工具,这些数据管理解决方案帮助 IT 团队和 DBA 执行常规任务,如:
如今,支持快速、经济高效地伸缩的云数据库日益普及。其中,一些云数据平台采用服务的形式交付,能够帮助企业进一步节省成本。
自治数据库基于云技术运行,可利用人工智能 (AI) 和机器学习技术自动化处理许多过去由 DBA 执行的数据管理任务,包括数据库备份管理、数据库保护和性能调优。
自治数据库也称为自治驾驶数据库,它可以为数据管理带来重大好处,如:
如今,支持快速、经济高效地伸缩的云数据平台日益普及。其中,一些云数据平台采用服务的形式交付,能够帮助企业进一步节省成本。
从某种程度上来说,大数据就像它的字面意思一样,就是大量的数据。但大数据的表现形式要比传统数据多很多,而且采集速度也要快很多。想象一下社交媒体(如 Facebook)每天或每分钟产生的所有数据。这种大规模、多样化、高速产生的数据既是企业的宝贵资产,同时也带来了极其严峻、复杂的管理挑战。
随着从相机、社交媒体、音频记录和物联网 (IoT) 设备等收集的数据越来越多,大数据管理系统应运而生。这些系统专门解决三个基本问题:
如今,许多企业正利用大数据改善和加速产品开发、预测性维护、客户体验、安全性和运营效率等等。随着大数据越来越大,商机也将越来越多。
当今数据管理的大多数挑战源于业务的快速发展以及不断加速的数据扩张。面对规模不断增长、类型日益多样化、生成速度越来越快的数据,现代企业需要更加高效的管理工具。目前企业面临的数据管理挑战主要有:
缺乏数据见解 |
企业从传感器、智能设备、社交媒体和摄像机等日益多样化的来源收集和存储数据。但如果他们不知道他们有什么数据,数据存放在哪里以及如何使用这些数据,那这些数据一点用都没有。数据管理解决方案要有一定的规模和性能才能及时提供有意义的洞察。 |
难以维持数据管理性能水平 |
企业一直在捕获、存储和使用越来越多的数据。要在这个不断扩张的数据层保持高峰时的响应速度,企业需要不间断地监视数据库的查询类型,并随查询的变化更改索引,同时还不能影响性能。 |
面对不断变化的数据要求 |
面对高度复杂、多辖区、不断变化的合规监管,企业需要简化数据审查,确保全面符合最新要求或修订后的要求(如有修订),尤其需要高效检测、跟踪和监视个人身份信息 (PII),满足日益严格的全球隐私保护法规。 |
需要轻松处理和转换数据 |
收集和识别数据本身不能提供任何价值 — 企业需要处理数据。如果要花很多时间和精力来将数据转化为他们分析需要的东西,那他们就不会去分析了。其结果就是,数据的潜在价值无法发挥。 |
持续高效地存储数据 |
在新的数据管理时代,企业将数据存储在多个系统中,包括数据仓库和非结构化数据湖(将所有格式的所有数据存储在单一信息库中)。企业的数据科学家需要一种工具来快速、轻松地将数据从原始格式转换为他们做各种分析所需的形式、格式或模型。 |
需要不断优化 IT 敏捷性并降低成本 |
组织现在可以利用云数据管理系统,选择在本地环境、云中,或是混合环境中保存和分析数据。IT 组织需要评估各个环境的一致性,以保持高度的 IT 敏捷性并降低成本。 |
2018 年 5 月,欧盟开始实施《通用数据保护条例 (GDPR)》,其中包含了管理和处理个人数据的七项关键准则:合法、公平和透明原则;目的限定原则;准确原则;存储限制原则;完整性和保密性原则等。
随后,《加利福尼亚消费者隐私法案》(CCPA) 等法规相继问世,与 GDPR 共同推动数据管理向前发展。这些法规构建了标准化的数据保护法律,支持个人控制自己的个人数据及数据使用方式。这意味着,如企业在捕获数据时未获得知情同意,对数据使用或本地存储控制不力,或未遵守数据擦除和可移植性要求,消费者将成为真正的数据利益相关者,拥有真正的法律追索权。
要想应对数据管理挑战,企业需要一系列全面、成熟、可靠的优秀实践。尽管具体的优秀实践会因视数据类型和行业而有所不同,但下列优秀实践可帮助企业轻松应对当今的主要数据管理挑战:
创建一个发现层来识别数据 |
发现层在您企业的数据层之上,让分析师和数据科学家能搜索和浏览数据集来使数据有用。 |
搭建一个数据科学环境来高效利用您的数据 |
数据科学环境可以充分地自动化处理数据转换工作,从而简化数据模型的创建和评估。换言之,您可以利用一系列专业工具消除手动数据转换,加速新模型的假设和测试过程。 |
使用自治技术在整个数据层保持性能水平 |
自治数据功能可利用 AI 和机器学习持续监视数据库查询,并随着查询变更不断优化索引。这就让数据库能快速响应,也让 DBA 和数据科学家能摆脱耗时的手动任务。 |
使用数据发现满足合规要求 |
新型数据科学工具可利用数据发现功能审查数据,识别需检测、跟踪和监视哪些连接链,确保您满足多辖区合规要求。面对全球范围内越来越多的监管法规,数据发现对于风险和安全管理人员将变得越来越重要。 |
确保使用融合数据库 |
融合数据库在一个数据库中内置了对所有现代数据类型和新开发模型的原生支持。优秀的融合数据库可以运行多种工作负载,包括图形、IoT、区块链和机器学习。 |
确保数据库平台具有出色的性能、可扩展性和可用性,为业务提供支持 |
企业整合数据来进行分析,以做出更明智、更及时的决策。通过可扩展的高性能数据库平台,企业可以使用高级分析和机器学习功能快速分析来自多个来源的数据,从而做出更明智的业务决策。 |
使用通用查询层管理多个、多种形式的数据存储 |
新型数据科学技术支持数据管理信息库协同作业,能够消除信息库之间的差异。借助跨多种数据存储的通用查询层,数据科学家、分析人员和应用可以便捷地访问数据,既无需知道数据的存储位置,也无需手动转换数据格式。 |
数据科学是一个利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域,数据科学家综合利用一系列技能(包括统计学、计算机科学和业务知识)来分析从网络、智能手机、客户、传感器和其他来源收集的数据。
认识到数据作为商业资本的新角色后,企业就发现了数字初创企业和行业颠覆者早就知道的秘密:数据对于提前识别趋势、制定决策和采取有效行动,超越竞争对手至关重要。而为了充分发挥数据的价值,这些企业积极寻求更加有效的数据管理方法。
详细了解优秀的数据管理可为您做些什么,包括云端自治策略的优势和可扩展的高性能数据库云功能。
注:为免疑义,本网页所用以下术语专指以下含义: