将数据质量和可观察性结合在一起:实现健康数据的终极堆栈

糟糕的数据可能是一个挑战。因此,组织正在大量投资于数据质量manbetx1.0下载解决方案。Gartner预测,到2025年,60%的数据质量流程将自动嵌入并集成到关键业务工作流中。该评估强调了数据质量在业务中的关键作用。

数据质量表明数据是否适合用于驱动可信的业务决策。传统上,数据质量度量依赖于质量维度,但是,这种快照方法并不能提供可操作的见解。维度的有限范围由于它们经常重叠并在共享的理解中产生冲突而进一步被稀释。

标准数据质量维度没有考虑业务影响,而业务影响对任何组织都是至关重要的。高德纳公司注意到了这个问题,认为这些维度需要彻底改革从数据消费者的角度来看

新万博移动客户端Collibra同意这一点,因此,专注于数据质量的9个维度有重要的商业影响。行为是这里的关键维度,监视数据的行为或外观是否与以前不同。这就是数据可观察性的概念出现的地方。

什么是数据可观察性?

那么什么是数据可观察性呢?它观察数据在企业系统中的移动,并确保整个数据旅程的质量。数据可观察性如何做到这一点?它使用许多工具来持续监控各种参数,帮助理解数据发生了什么以及原因。

福布斯定义了数据可观察性作为一组跟踪企业数据系统运行状况的工具.当出现问题时,该工具集利用了几种技术来帮助识别和排除问题。

数据可观察性采用更广泛的数据视图,包括其沿袭、上下文、业务影响、性能和质量。的数据可观察性的五大支柱包括数量或完整性、数据的新鲜度、指示值有效性的分布、模式和沿袭。

为什么数据可观察性很重要

传统的数据质量侧重于以响应式的方式修复数据问题。当它扫描数据集时,它可能会错过整个企业的数据旅程。另一方面,数据可观察性,提供端到端数据价值链诊断功能。它主动跟踪企业数据系统的健康状况,以便您提前意识到潜在的问题。

2020年O 'Reilly调查的数据质量状况标志着首要问题是数据源太多,一致性太低。协调多个不同来源的数据具有挑战性。此外,按照当前数据到达和使用的速度保持数据一致性并不容易。数据可观察性步骤用于管理大规模的数据质量。

数据可观察性有助于在异常影响下游应用程序之前发现异常。它利用元数据为正在发生的事情及其结果添加上下文。因为停机成本可以螺旋上升到每分钟超过5600美元在美国,主动控制停机时间的需求正变得越来越重要。利用数据沿袭、时间序列分析和交叉度量异常检测,数据可观察性可以发现并修复根本原因,从而减少数据停机时间。

综上所述,数据可观察性:

  • 跟踪企业数据系统的运行状况
  • 支持端到端数据价值链诊断
  • 支持大规模管理数据质量
  • 最大限度地减少数据停机时间
  • 确保快速访问可信数据

数据可观察性和数据质量的区别是什么

数据可观察性与传统数据质量在几个关键点上有所不同。

数据可观察性使DataOps和数据工程师能够跟踪数据的路径,从故障点向上移动,确定根本原因,并帮助从源头解决问题。

关键领域 传统数据质量 数据可观测性
扫描和修复的范围 数据集 数据集(静态数据),数据管道(动态数据)
焦点 修正数据错误 通过观察数据、数据管道和事件流,减少返工、修复和数据停机的成本
方法 寻找“已知的”问题 检测“未知”问题
规则和度量 手动静态规则和度量 ml生成的自适应规则和度量
根本原因调查 没有 通过数据沿袭、时间序列分析和交叉度量异常检测
关键的人 数据管理员,业务分析师 数据工程师,数据运维工程师
常见用例 可信报告、合规【下游】 异常检测、管道监控、数据整合【上游】

为数据质量堆栈添加可观察性

如果您已经在使用任何数据质量工具,请首先询问它们是否真的能够实现端到端质量。大多数工具只提供部分自动化和有限的可伸缩性。他们对根本原因分析和工作流程的支持也不够。

一种成熟的规则方法利用ML使规则变得可解释和可共享。因此,当数据在不同环境中移动时,数据质量操作符不需要重写规则。然后,他们可以有效地管理迁移和扩展。跨不同系统共享规则的便利性使业务用户不必担心编码语言的问题。

预测数据质量和可观察性的5步过程
步骤1。连接数据

角色包括:

管理

连接和扫描各种异构数据源和管道,包括文件和流数据。
步骤2。获得意识

角色包括:

任何利益相关者

显示每个数据集、表和列的概要统计信息,包括隐藏关系和时间序列分析。
步骤3。自动化控制

角色包括:

DataOps

使用自动化技术规则构建通用DataOps和统计控件,以检测未知问题并扩展数据质量操作。

技术规则示例:我的数据是否按时加载?我的资料是否完整?我的数据是否在正常范围内?

步骤4。定义条件

角色包括:

数据管理员

使用自适应、非专有、可解释和可共享的自动化和自定义业务规则构建特定于领域的控件。

业务规则示例:我的交易会累积到我的头寸吗?银行贷款被批准的利率正确吗?该保险客户是否有房屋和汽车保单?

第5步。采取行动

角色包括:

任何利益相关者

将数据质量流程嵌入到关键业务工作流中。当数据质量分数下降时,向正确的数据所有者发出警报,以快速解决问题。

具有全套件数据质量和可观察性能力的统一数据管理方法

允许业务用户识别和分配质量问题可以确保数据质量工作来自整个企业,而不仅仅局限于一个小团队。利用元数据通过为影响评估的质量问题提供正确的上下文来增强这种方法。

获得主动的数据情报
数据质量+可观测性+数据目录 首先应该扫描哪些数据集或列
数据质量+可观测性+数据沿袭 为了解决根本原因,您应该首先解决哪些数据问题
数据质量+可观察性+数据治理 为了解决根本原因,您应该首先解决哪些数据问题

统一的数据管理方法将数据质量、可观察性、目录、治理和沿袭结合在一起。它帮助您集中和自动化数据质量工作流,以支持管理数据和数据的整体视图充分利用您的数据和分析投资。

想要看到Collibra新万博移动客户端数据质量和可观察性的行动?

试试我们的试驾吧!

相关资源狗万新闻c

博客

什么是数据可观察性?为什么它很重要?

分析报告

为数据质量做一个商业案例

博客

什么是数据质量?为什么它很重要?

查看所有资源狗万新闻c

更多像这样的故事

2022年12月15日3.最小值

数据窗口:介绍Collibra数据市场新万博移动客户端

阅读更多
箭头
2022年12月14日-3.最小值

理解和推动采用新的Collibra使用分析新万博移动客户端

阅读更多
箭头
2022年12月13日-5最小值

升级:雪花+ Collibra:扩大平台治理范围…新万博移动客户端…

阅读更多
箭头