数据质量的6个维度

测量数据质量了解是否要在操作和分析应用程序中自信地使用企业数据至关重要。只有良好的质量数据可以功率准确分析,反过来可以推动可信任的业务决策。

据一位Gartner估计在美国,数据质量差可能导致平均每年额外支出1500万美元。尽管这不仅仅是经济损失。数据质量差会从多个层面影响组织:

  • 更高的处理成本:统治声明当数据有缺陷时,完成一个工作单元的成本是完美数据时的十倍
  • 不可靠的分析:由于对报告和分析的信心较低,底线管理从来都不容易
  • 糟糕的治理和法规遵循风险:法规遵循不再是可选的,没有它们,业务生存将面临挑战
  • 品牌价值损失:当组织不断地进行错误的运营和决策时,品牌价值迅速减少

质量差的数据影响组织的促进增长和推动创新的业务战略。即时关注是组织如何衡量数据质量并找到改进方法的方法。

如何衡量数据质量?

数据质量可能容易识别,但很难精确确定。您可以考虑数据的多个属性,以获得数据质量的正确上下文和度量方法。例如,医疗保健领域的患者数据必须完整、准确并在需要时可用。对于营销活动来说,客户数据必须是独特的、准确的,并且在所有参与渠道上保持一致。数据质量维度捕获特定于您的上下文的属性。

什么是数据质量维度?

数据质量维度是数据的度量属性,您可以单独评估、解释和改进这些属性。多个维度的聚合得分表示特定上下文中的数据质量,并指示数据的适用性。

一般,47%的最近创建的数据记录至少有一个关键(例如,影响工作的)错误。高质量数据是例外,只有3%的DQ分数被评为可接受(可接受性分数>97%)。因此,只有3%的公司数据符合基本质量标准。

数据质量维度的得分通常用百分比表示,这为预期的用途设置了参考。例如,当您使用87%准确的患者数据来处理账单时,13%的数据不能保证您的账单是正确的。在另一个例子中,52%完整的客户数据集意味着计划的活动达到正确的目标细分市场的信心较低。您可以定义可接受的分数级别,以建立对数据的更多信任。

数据质量维度可以作为选择最合适数据集的指南。当面对精度分别为79%和92%的数据集时,分析人员可以选择精度更高的数据集,以确保他们的分析具有更可靠的基础。

数据质量的6个维度是什么?

您可以使用相同或不同权重的多个维度测量数据质量,并且通常使用以下六个键尺寸。

1.完整性

此维度可以覆盖各种属性,具体取决于实体。对于客户数据,它显示了生产性参与所必需的最少信息。例如,如果客户地址包含可选的landmark属性,则即使缺少landmark信息,也可以认为数据是完整的。

对于产品或服务,完整性可以建议帮助客户比较和选择的重要属性。如果产品描述不包括任何递送估计,则不完整。金融产品通常包括客户评估与其要求对齐的历史表现细节。完整性措施如果数据足以提供有意义的推论和决定。

2。精度

数据准确性是数据代表真实世界场景的级别,并使用可验证的来源确认。数据的准确性确保相关的现实实体可以按计划参与。员工的准确电话号码保证员工始终可以到达。另一方面,不准确的出生细节可以剥夺员工某些福利。

测量数据的准确性需要使用真实的参考资料,如出生记录或实际实体进行验证。在某些情况下,测试可以保证数据的准确性。例如,您可以根据银行的证书或通过处理事务来验证客户的银行详细信息。数据的准确性在很大程度上影响着数据在整个过程中如何保存和成功数据治理可以促进数据质量的这种维度。

高数据精度可以为实际正确报告和值得信赖的业务成果而动力。准确性对于高度监管的行业(如医疗保健和金融)而言非常重要。

3.一致性

如果在多个实例匹配的情况下,则该维度表示存储和使用的相同信息。它表示为各种记录中匹配值的百分比。数据一致性可确保分析正确捕获并利用数据的值。

一致性很难评估,需要跨多个数据集进行有计划的测试。如果一个企业系统单独使用带有国际区号的客户电话号码,而另一个企业系统使用带有国际区号前缀的客户电话号码,可以快速解决这些格式不一致的问题。但是,如果底层信息本身不一致,则解析可能需要使用其他来源进行验证。例如,如果一个患者记录将出生日期设置为5月1日,而另一个记录将其显示为6月1日,那么您可能首先需要评估来自两个来源的数据的准确性。数据一致性通常与数据准确性联系在一起,任何在这两个方面得分高的数据集都是高质量的数据集。

4.有效性

这个维度表示值属性可用于与特定的域或需求保持一致。例如,如果邮政编码包含该地区的正确字符,那么它们是有效的。在日历中,如果月份与标准全局名称匹配,则月份是有效的。使用业务规则是评估数据有效性的一种系统方法。

任何无效数据都会影响数据的完整性。您可以定义规则以忽略或解析无效数据以确保完整性。

5.独特性

此维度指示它是否是所用数据集中的单个记录实例。唯一性是确保无重复或重叠的最关键维度。数据唯一性是根据一个数据集内或跨数据集的所有记录来衡量的。高唯一性分数确保最小化重复或重叠,建立对数据和分析的信任。

识别重叠可以帮助保持唯一性,而数据清理和重复数据消除可以修复重复记录。独特的客户档案在客户参与的攻势和防御策略中发挥了很大作用。数据唯一性还改进了数据治理并加快了法规遵从性。

6.完整性

跨系统的数据传输和转换会影响其属性关系。完整性表明属性得到了正确的维护,即使数据在不同的系统中被存储和使用。数据完整性保证了所有企业数据的跟踪和连接。

数据完整性影响关系。例如,客户配置文件包括客户名称和一个或多个客户地址。如果一个客户地址在数据传输的某个阶段失去完整性,则相关的客户配置文件可能会变得不完整和无效。

虽然您经常会遇到这六个数据质量维度,但还有更多的维度可用来表示数据的不同属性。根据上下文,您还可以考虑数据是否符合标准(数据值是否符合指定的格式?),以确定数据质量数据质量是多维的,并且与数据智能,表示您的组织如何理解和使用数据。

测量数据质量维度可以帮助您识别提高数据质量的机会。使用自适应规则和基于连续ML的方法,预测数据质量为您带来可信的数据,以推动实时、一致、创新的业务决策。

超越准确性:数据质量对数据消费者意味着什么

从数据生产者和管理者的角度来看,数据质量主要关注准确性。他们的目标是使数据尽可能接近真实世界的实体。他们的数据清理、修复和管理工作旨在提高数据准确性。

数据消费者的视角,我们应该为数据质量增加三个维度。当数据消费者购买高质量的数据时,他们面临的挑战更倾向于数据供应链。他们的第一个需求是数据无障碍.他们想知道数据驻留在哪里以及如何检索它。

他们的下一个担忧是及时性.数据的价值在于使用它。如果不能及时使用,可访问的数据就没有价值。及时性定义了数据在需要时是否可用。实时或接近实时的可信数据可以减少错误并简化操作流程。及时的数据可用性可以推动成功的业务创新,并保持竞争优势。

数据使用者希望在需要时访问数据,并希望最新的数据为其项目提供动力。

资料来源:Gartner(2020年8月)–数据和分析技术专业人员的数据质量基础

一旦数据消费者对数据访问性和及时性满足,他们的焦点会转移到关联.他们想要购买正确地符合他们需求的数据。他们不想把精力浪费在与他们计划的项目不直接相关的数据上。只有这样才能保证数据的准确性,以确保所选数据将正确地交付结果。

超越准确性,数据生产商和消费者共同需要演变一种重新考虑数据质量的策略。数据消费者必须定义最重要的是,创作者必须关注提供最重要的数据。他们需要评估影响有效数据购物的因素,并提出以下问题:

  • 数据是否被充分理解?
  • 是由数据智能还是
  • 数据是否足够了元数据了解他们如何利用数据进行具体分析?
  • 他们可以访问618manbetx 当数据在源之间移动并经过聚合、操作和转换时?

只有这样,数据质量才能得到成功解决并不断提高。

想要了解有关Collibra数据质量的更多信息吗?新万博移动客户端

附表a数据评估

相关资源狗万新闻c

博客

什么是数据质量?

博客

数据质量和数据治理:从哪里开始?

视频/网络研讨会

新万博移动客户端Collibra数据智能云

1mantbex

更多像这样的故事

2021年5月7日-5.阅读

医疗保健中的数据质量:挑战与机遇

阅读更多
箭
3月18日,2021年 -5.阅读

什么是数据质量?

阅读更多
箭
2020年10月30日-4.阅读

数据质量和数据治理:从哪里开始?

阅读更多
箭