行为(自动)

这通常被称为统计变化检测或数据可观察性。
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到新万博移动客户端 新万博移动客户端Collibra文档中心 作为Collibra数据质量2新万博移动客户端022.11版本的一部分。为了确保平稳过渡, dq-docs.新万博移动客户端collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心进行维护。
结果可以在行为选项卡(行为分析的简称)下找到。这将跟踪底层数据概要度量的启发式变化。自适应规则(AR)模式显示了监控类型和标准的完整列表。

基于规则的数据质量演进

Collibra数据质量的主要目标新万博移动客户端是提供企业数据质量洞察力,同时大大减少需要手动编写的规则的数量。当数据集被置于管理之下时,Collibra会对数据进行概要分析,并为每个数据集构建模型。新万博移动客户端这使得Collibra能新万博移动客户端够在每个数据集中了解“正常”的含义。随着数据的变化,“正常”的定义也在变化。Collibra不需要你调整规则设置,而是继续调整它的模型。新万博移动客户端这种方法使Collibra能够提供自动化的企新万博移动客户端业级数据质量覆盖,从而无需为每个数据集编写数十条甚至数百条规则。
“行为”默认开启。监测将根据剖面活动校准和检测DQ观测值。

使用行为分析(变化检测)

通常,每天对给定的数据集执行数据质量检查。行为数据质量,或变更检测,建立在Profile活动计算的数据之上。默认设置通常可以很好地工作,但是,Collibra允许您指定两个关键参数:新万博移动客户端
参数
描述
行为Lookback
模型包含的DQ检查的数量。例如:10的回看意味着该模型是基于一个数据集最近10次DQ检查的综合统计数据。
学习阶段
在应用行为评分之前所需的DQ检查的最小数量。新万博移动客户端Collibra DQ不会尝试对数据集应用行为评分,直到至少有这么多DQ检查在其上运行。

适用的行为因素

您可以选择放弃上述任何因素对模型评分的应用。例如,您可以通过取消选中MIN和MAX复选框来指示Colli新万博移动客户端bra Data Quality不跟踪列中值的MIN和MAX范围。这可以防止Collibra使新万博移动客户端用行为模型在数据集的任何列中检测任何极端值。
每次运行时,Collibra 新万博移动客户端Data Quality都会在列级对数据集进行概要分析,并开始为数据集建立模型。最初,不需要任何人工干预,只需要不断地提供数据。在几次运行中,模型变得足够健壮,可以开始检测手工规则所涵盖的数据质量问题。例如,Collibra可能新万博移动客户端检测到特定列经历了NULL值数量的激增(通常是手动定义的规则)。
新万博移动客户端Collibra Data Quality的行为模型由以下因素组成:
  • 空值
  • 空值
  • 基数
  • 数据类型转换
  • 行数
  • 加载时间
  • 最小值
  • 最大值
  • 平均值
随着时间的推移,数据集中任何给定列的normal定义都可能发生变化。数据可能会变得更加稀疏或容量减少。新万博移动客户端Collibra Data Quality在数据集的整个生命周期中不断学习和调整模型。然而,如果数据中有一个剧烈的(但合法的)变化,这仍然意味着在模型调整期间可能会出现几天不必要的警报。为了加速模型调整,Collibra DQ提供了针对给定行为发现调新万博移动客户端整可接受范围的能力。
例如,Collibra D新万博移动客户端Q了解到一个特定的列通常具有10%到20%的空值。今天,该列的80%为空值。新万博移动客户端Collibra提出了一个数据质量问题,并从今天DQ运行的质量分数中减去一定比例的分数。您可能会检查发现,并意识到该列有更多空值是有合理的业务原因的。只需点击几下,您就可以调整该发现的可接受范围。新万博移动客户端Collibra将用户定义的输入整合到模型中,并调整当天的质量评分。新万博移动客户端在没有任何输入的情况下,Collibra Data Quality最终会到达正确的范围,但如果没有用户输入,可能需要运行几次才能到达那里。

向内钻取以查看有效值的预测范围

自动标记打破记录与错误的数据。
上面的屏幕截图显示了一些可用于调优行为模型的控件和可视化。在这个特定的示例中,Collibra检测到EXCH字新万博移动客户端段的基数从1个唯一值增加到2个。但是,您可以指示Collibra忽略这个发现,并通过新万博移动客户端手动指定此列中可接受的值范围来调整模型。为了帮助用户,Collibra提供了该列新万博移动客户端基数的折线图和历史topN可视化。
如果你想告诉Collibra在EXCH列中最多可新万博移动客户端以有3个有效值,点击“手动”按钮,将上限从1调整为3,然后点击保存按钮。
新万博移动客户端Collibra调整行为模型的基线,删除发现,并调整质量评分。从那时起,Collibra知道EXCH列新万博移动客户端中唯一值的可接受范围在1到3之间。
描述
盲点
在DQ检查期间检测到可能发生更改的列的名称。
类型
对给定列执行的DQ检查的类型。例如,唯一(范围)是位于给定范围之外的唯一值的数量。
基线
基线值是前面扫描次数的平均值,该扫描次数由Explorer页面的Profile部分中为Behavior Lookback选择的值决定。
今天
变化百分比
一行值与另一行值之间变化的百分比。
Δ %变化
从一行值到另一行值的百分比变化。
Zscore
偏离预期基线值的标准偏差数。
描述
对给定列执行的DQ检查类型的描述。
分数
从总体DQ分数中减去的值。由基线值的方差和边界所设定的期望范围的距离。期望的范围在AR面板中也可见,在Details面板中每个行项都有图形可用。
行动
项目标签 您可以应用于观察,让您在未来的运行中训练行为模型。可用的选项有“验证”、“无效”和“解决”。
状态
DQ项的状态,例如“Observation”。
配置文件
细节
通过单击Details按钮,可以通过折线图深入了解随时间变化的情况。

自适应规则

随着C新万博移动客户端ollibra Data Quality构建和发展行为模型,它将暴露它所了解的所有“自适应规则”。上面的例子演示了Collibra如何学习和自动应用规则。新万博移动客户端您可以控制,但如果不受控制,Collibra会学习给定数据集的“正常”含新万博移动客户端义,并相应地对数据集进行评分。这就产生了一组随着数据集的变化而自动应用和调整的大量规则。
要查看或修改Adaptive Rules,请导航到所需数据集的发现页面上的Behavior选项卡,并单击屏幕右侧的“view AR”按钮。这将显示自适应规则的完整列表。
Adaptive Rules还为您提供了调整从行为模型派生的范围的能力。您可以手动调整任意自适应规则的容错范围和评分。虽然这有时很方便,但让Collibra Data Quality通过自己的学习过程来处理模型调优也很好。新万博移动客户端

得分

在自适应模式下,Collibra 新万博移动客户端Data Quality根据行项目的异常程度自动生成DQ项目评分。这个测量值与绿色范围到红线的距离成正比。下面的例子。
得分范围为0-30。这与百分比变化和Z-Score有关。当Z-Score介于0.0 - 6.0之间时。

常见问题解答

问:哪个Colli新万博移动客户端bra DQ API包含所有行为检查(通过和中断)?
  • / v2 / getdqchecksdetails
问:“Mean”在行为模式图表中是如何定义的?
  • 平均值代表行为回溯窗口的平均值,例如,如果今天是本月的11日,bhlb设置为10,则平均值将是1日至10日的平均值,第11天的统计数据将代表平均值的变化。
  • 同样值得注意的是:平均值只包括通过的规则,不包括失败的运行