模式(高级)

我们感动!为了改善客户体验,Collibra数据质量用户指南已移至新万博移动客户端 新万博移动客户端Collibra文档中心 作为Collibra数据质量2新万博移动客户端022.11版本的一部分。为了确保无缝过渡, dq-docs.新万博移动客户端collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心维护。
这是一个高级的可选功能
Owl利用数据科学和机器学习的最新进展,在数百万行和列中发现深度模式。在下面的例子中,它注意到Valerie可能是同一个用户,因为她有相同的customer_id和card_number,但最近出现了不同的姓氏。可能的拼写错误或数据质量问题?

训练反模式检测模型

当启用Patterns特性时,Owl将构建它在数据中识别的模式集合。然后,它将使用该集合来识别打破已建立模式的值。例如,在下图中,Owl了解到一条从“马丁·路德·金图书馆”开始的自行车路线将在“圣何塞Diridon Caltrain车站”结束。然而,当当天的数据与此模式交叉引用时,Owl检测到一个反模式,即旅行从“MLK图书馆”开始,但在“4号市场”结束。Owl将此反模式作为数据质量问题提出,并强调了它认为“end_station”的值应该是多少。
为了构建Pattern模型,Owl需要包含有效模式的历史数据,如果可能的话,还需要一个日期/时间列。然后,用户可以需要定义日期/时间列、回顾周期以及由哪些列组成模式。在下图中,图案由“end_station”,“start_terminal”,“start_station”组成。
很可能表面上的反模式查找实际上是有效的数据,而不是数据质量问题。在这种情况下,Owl允许用户进一步指导现有的Patterns模型如何正确地对发现进行评分和处理。例如,如果“Market at 4th”实际上是自行车旅行的有效“end_station”,则用户可以通过将其标记为有效来否定已识别的反模式。此操作将指示Owl不再触发此特定的反模式。Owl还将重新记录当前的Owlcheck结果,以反映用户的反馈。此外,还可以通过设置每个发现要扣除的数值来定义当前数据集上反模式发现的权重。

欺诈检测吗?

考虑这样一个场景:数据集有一个SSN列以及FNAME、LNAME和许多其他列。如果您的传统规则引擎通过了,因为其中一行具有有效的SSN和有效的Name,但是SSN不属于那个人(他或她的姓名和地址等),该怎么办?这就是数据挖掘可以获得比基于规则的方法更复杂的见解的地方。