什么是数据质量?为什么它很重要?

什么是数据质量?为什么它很重要?

数据管理协会(DAMA)将数据质量管理定义为“活动的计划、实施和控制……以确保数据资产适合消费并满足数据消费者的需求。”

在他的书中在数据方面走在前面, Tom Redman指出:“如果数据适合(客户)在运营、分析、决策和计划中的预期用途,那么它就是高质量的数据。为了适合使用,数据必须“没有缺陷”(即“正确的”)和“具有所需的特征”(即“正确的数据”)。数据质量指示数据是否适合用于驱动受信任的业务决策。

数据质量的主要驱动因素是:

  • 业务数据的数量、速度和种类呈指数级增长
  • 多个系统导致更大、更复杂、更昂贵隐藏数据工厂
  • 不断增加的合规压力——GDPR、BCBS 239、CCAR、HIPAA等法规要求数据审计和报告
  • 数据迁移——当将大量数据迁移到云中或新的存储中时,确定表或系统中丢失的记录、值和损坏的关系是很重要的
  • 高性能人工智能计划-监测数据漂移有助于检测分析模型随时间变化的准确性和性能
  • 客户体验——为客户创造个性化的体验需要关于个人接收者的新鲜和完整的数据

如今,组织的每项决策都依赖于数据,并将数据视为重要的企业资产。随着业务分析师和数据科学家努力为他们的解决方案提供可信的数据,数据质量在业务数据策略中具有更高的优先级。manbetx1.0下载

什么是好的数据质量?

高质量的数据可以正确地表示业务场景,并帮助更精确地处理手头的问题。您可以使用高质量数据的基础来获得可信的信息,从而推动可信的业务决策。卓越的业务结果可以在持续改进周期中进一步提高数据质量

对数据的信心对于跨企业协作使用数据至关重要,良好的数据质量是实现数据到价值的速度的一个指标。

描述持续数据质量的改进周期,从数据质量到信息质量,再到决策质量,最后是结果质量,所有这些都相互作用。

为什么数据质量很重要?

不完整、重复、冗余或不准确的数据在业务中很常见,这是由人为错误、竖井工具、多次交接和不充分的数据策略造成的。由于数据质量差,企业经常要面对沮丧的客户、更高的运营成本或不准确的报告。麻省理工斯隆管理评论研究指出,对于大多数公司来说,坏数据的成本占到收入的15%到25%,令人震惊。

简化操作流程是数据质量的关键用例。

  • 营销活动往往收效甚微,因为在不正确的地址或重复的客户上浪费了精力
  • 由于部门间数据不匹配,供应商发送了错误的材料或数量
  • 协调不一致的数据以实现遵从性需要更高的手工工作,成本更高,或者延迟流程

数据质量极大地影响对业务变更的敏捷响应。

  • 不准确或旧的数据无法识别新的机会
  • 基于低质量数据的分析无法表明当前的活动是否有效或是否需要改变
  • 财务报告可能不完整或过时的数据不能代表正确的情况,影响及时采取行动

随着组织急于拥抱大数据和人工智能自动化,他们需要更加欣赏高质量的数据。

如何确定数据质量?

测量数据质量在特定领域或任务的背景下往往更相关和实际。您可以从列出数据资产清单开始,并选择一个试点示例数据集。下一步是评估数据集的有效性、准确性、完整性和一致性。您还可以评估冗余、重复和不匹配数据的实例。在小数据集上建立基线可以快速扩展工作。

观看这个视频了解数据质量对您意味着什么。

基于规则的数据质量管理是一种很好的方法,您可以为特定的需求定义业务规则。您还可以建立数据质量目标,并将其与当前水平进行比较。设定目标有助于持续测量,发现改进的机会,以及良好的数据卫生

Gartner在美国,提高数据质量的努力往往只专注于准确性。数据消费者对数据质量的定义比技术专业人员可能意识到的要广泛得多。例如,除非数据是可访问的、可理解的和相关的,否则数据的准确性是没有意义的。

数据质量的一个例子是什么?

当有人急匆匆地去做紧急手术时会发生什么?医疗保健人员可以快速恢复数字患者记录,这些记录将始终呈现完整的信息。如果患者数据未能显示过敏或正在服用药物,后果可能会很严重。高质量的患者数据可以确保所有治疗方法在任何时间点都能正确解决个人的独特医疗需求。

在业务中,良好的数据质量可以确保您的数据适合支持分析,并引导您朝着正确的方向努力。

分析数据质量与数据完整性

正如我们所看到的,数据质量主要是衡量数据可靠性和准确性的指标。它指的是将数据用于预期业务目的的能力。这可能包括告知、规划和推动决策。数据质量取决于许多值,包括:

  • 一致性.数据输入标准化且一致。
  • 及时性.数据是最新的。
  • 独特性.数据集不包含重复或不相关的条目。
  • 完整性.数据应该具有代表性,能够清晰地反映现实世界的情况。
  • 有效性.数据符合业务所需的格式。

在某种程度上,数据质量是数据完整性的一个子集。数据完整性不仅要求数据准确、一致和完整,还要求数据在上下文中。另一种说法是,数据完整性是在整个生命周期内保证数据质量和一致性。为了实现数据完整性,在修改、更新或集成数据记录时,将不会出现意外的更改或变更。

识别和解决常见的数据质量错误

组织内的数据质量问题有许多常见原因。我们已经讨论了一些大的原因,下面是一些解决常见错误的特殊方法:

1.改进数据捕获方法

例如,在生成销售线索时,设计良好的表单可以在流程一开始就完成大量清理数据的工作。利用限制值、预填充字段和其他要求,鼓励用户在输入数据时保持精确—并确保他们完成流程并提交数据。

2.标准化团队的数据输入方法

例如,更新数据的最常见方式之一是通过销售团队。教育您的团队成员关于数据将用于的目的,可以帮助确保他们完成所有必要的字段,并准确地完成这些字段。销售团队可以带来大量的数据,但如果格式不正确,您就会错过其中的大部分价值。

3.捕捉并改正重复记录

重复的记录是一个严重的问题,它会阻碍销售,打乱自动化的营销流程——同时还会让你花钱。尽早捕获重复记录将避免它们可能造成的大部分损害。因此,建立一个警报系统来通知您重复记录是很重要的。分析和开发报告以确定如何生成副本可以帮助您修复系统问题。

如何提高数据的质量

发现并承认问题是解决问题的第一步。最近的普华永道全球危机调查报告调查强调了在危机管理中准确数据的重要性。数据质量受到各种因素的影响,这些因素都源于多个数据源的筒仓。您必须采取全面的方法来理解数据,并克服管理数据质量的挑战。

再次引用Tom Redman的话:在一个数据的生命周期中有两个有趣的时刻:它被创建的时刻和它被使用的时刻。数据质量管理的重点是及时连接这些时刻——确保创建时刻的设计和管理能够正确地创建数据,以便在使用时刻一切顺利。

  • 元数据管理:元数据管理利用定义信息资产的跨组织协议,将数据转换为企业资产。
  • 数据治理数据治理是用于标准化组织内数据资产管理的实践和流程的集合。一个健壮的数据治理基金会建立对数据的信任。
  • 数据目录:数据目录使用户能够快速发现和理解重要的数据,帮助选择可信的数据来生成有影响力的业务见解。
  • 数据匹配数据匹配识别可能的重复或重叠,以打破数据孤岛并实现一致性。
  • 数据情报数据情报是以正确的方式理解和使用数据的能力。全面的数据智能方法可以促进和交付高质量的数据。

数据质量如何导致数据智能之间的联系。

数据质量最佳实践侧重于建立企业范围的活动、定义度量度量标准、简化程序和执行定期审计。

预测和持续的数据质量提供独特的自主规则管理、连续数据漂移检测和自动数据分析功能。您可以通过数据治理、数据隐私、数据目录和数据沿袭来增强这些功能,从而实现端到端数据管道控制,为数据质量带来完整的业务上下文,并以可扩展的方式提供可信的分析和人工智能。

Gartner估计,到2022年,60%的组织会利用杠杆支持ml的数据质量改进技术。如果能够自动化数据质量规则管理过程,并不断提高业务关键型数据源和数据元素的质量,对您的组织有多大好处?

您对Collibra数据质量的互动之旅感兴趣吗?新万博移动客户端

试驾一次

相关资源狗万新闻c

博客

数据质量和数据治理:从哪里开始?

视频/网络研讨会

新万博移动客户端Collibra数据智能云

博客

什么是数据智能?介绍性指南

查看所有资源狗万新闻c

更多像这样的故事

2022年12月22日-3.最小值

可观察性:数据质量的下一个演变

阅读更多
箭头
2022年12月13日-5最小值

升级:雪花+ Collibra:扩大平台治理范围…新万博移动客户端…

阅读更多
箭头
2022年12月5日4最小值

成功实现数据质量和可观察性解决方案

阅读更多
箭头