对数据治理与Apache火花™和AI /毫升

数据分析的博客

最近我和一个大型企业客户的数据治理项目经理如何困难为他得到一个企业范围的观点数据质量y。我了解到大公司可以有许多不同的规则引擎检查数据质量和牧师。这些工具中的每一个都擅长他们需要做什么,即技术检查数据质量和修复它,但是常常思念是业务输入数据的所有者。所以数据管理者面临的真正挑战:

  1. 得到一个统一的视图
  2. 理解数据和相关流程
  3. 定义质量差距在他们自己的商业语言
  4. 定义一个有效的流程来处理差距由正确的人在正确的位置
  5. 创建一个自动反馈回路缺口时解决

能够应对这些挑战,需要一个企业范围的数据治理平台结合数据编目,数据沿袭、数据质量、数据分析和报警功能,在机器学习的支持下,使数据管理,数据分析,和数据科学家,独立于数据驻留的地方。

到目前为止,许多组织已经实施了质量检查大量的技术工具与很少或没有在数据源和系统整合视图从业务质量的观点。在今天的数据驱动的企业迅速变化的世界中,数据管理员需要更多的灵活性来构建业务规则的数据。这样,他们洞察业务流程需要改变和他们的业务需要合作来解决数据问题根源。他们还需要一个集成的方法对数据管理和数据质量,而不是各种不同的孤立的应用程序。如果你问别人喜欢我们首席技术官斯坦Christiaens他说,一个工具箱的方法不为数据治理工作。你会看到一个类似的主题报告Forrester分析师如Gartner和领先。

这是一个范式转换,即从数据质量技术,反应性的努力,更积极主动的方法,使你的数据治理倡议更一致的不断变化的业务策略。这种方法还将优先级设置转移到业务数据质量工作首先将专注于重要的数据元素。它还强化了他们的数据的业务采取所有权的重要性,因为这是唯一有效的方法能够信任你的数据。信任是由治理、政策和业务质量规则和指标,通过强大的可视化和翔实的数据沿袭。

管家从来没有数据,数据分析师和数据科学家能够浏览一个无所不包的目录数据的组织。现在,他们可以看到这些数据是什么样子,理解它的政策符合质量是什么,而且,最重要的是,提供轻松设置阈值和规则的能力,积极监测数据的质量,他们自己的。他们可以在一个单一的平台,采用机器学习通过Apache®引发™,一个强大的处理引擎建立在速度、易用性和复杂的分析。

在我们的一个客户的话说,“我们尝试了许多传统的数据质量和分析工具与我们的数据管家,但是接口和术语仍然太技术了。”

业务用户的关键构件中心和数据治理集中平台:

  • 自助服务数据结构的新员工培训和简单装配成逻辑集——基于业务需求。这使您能够立即有一个明确的、统一的照片最重要的数据和数据市民将可以轻易的找到正确的数据。
  • 多维数据沿袭,让你了解所有重要方面相关数据:人、流程和系统
  • 可追溯性,显示了如何通过您的应用程序的数据流从源到目标为每个逻辑集景观的数据
  • 深刻的数据可视化分析包括炒和匿名的样本数据来帮助你了解你需要的数据假设所有权
  • 警报和自动数据问题工作流,使您能够触发正确的管理流程从源头上解决数据问题而不是在报告时间以不可持续的方式。这将很快建立信任贵公司的数据资产
  • 是和亚马逊一样的购物体验,允许控制和管理整个企业的数据使用

自助购物的数据

新万博移动客户端Collibra目录有助于自动化新员工培训的所有数据结构(即技术元数据)从你的公司的源系统记录。,它在逻辑上组织数据到数据集用于报告、分析和遵从性。机器学习算法方便数据管家合并技术更容易理解业务上下文数据沿袭。您还可以使用其他机器学习技术来检测数据集相似,重复的业务术语等等。这使它很容易清理你的沼泽,净化数据湖,它是公民和数据科学家都容易找到值得信赖的数据集对于任何业务报告或数据的科学项目。最后,协作功能,如标签、用户提到评级,更促进业务上下文的众包在你的数据,以方便大家发现,理解,信任一个数据集。

数据沿袭对每个人都关注所有权,质量,和信任

新万博移动客户端数据沿袭图提供自动化的“数据”血统了解数据流从源系统关键的合规报告。分层血统可视化以用户为中心,致力于为用户提供正确的见解,根据用户角色查看图。用户可以很容易地切换这些层。例如,质量从源系统数据沿袭合规报告是了解和信任的关键,以及审核。这里只是几个例子中可用的数据沿袭今天:

  • 覆盖/数据质量维显示当前平均得分(green-amber-red)和一种趋势指示(稳定,向上或者向下)
  • 覆盖的数量数据质量标准和规则的定义
  • 覆盖数据质量问题的数量由状态(high-medium-low)
  • 覆盖每个数据资产的所有权

1.2数据分析图像

分析和提供自动预览洞察数据

最新目录的添加、数据分析和数据预览,允许数据管家接触数据。他们可以看到、感觉和更好地理解数据没有太多的障碍和对技术的依赖数据的所有者。高度可视化数据分析结果显示主要特征、分布和数据的离群值。

警告!从象牙塔不管理你的数据,使用一个真正的数据治理平台接触您的数据。

通常,数据质量检查定义从象牙塔不知道或从未见过的人或工作数据。样本数据自动爬和敏感数据元素是隐藏的用户。

  • 管理员可以定义业务数据质量规则基于数据分析结果和加密数据样本。
  • 机器学习技术——基于可用的元数据和规则Collibra -自动建议数据集的相同或相似的数据质量规则适用。新万博移动客户端
  • 管理员可以定义数据模式(如帐号结构)Collibra,每列数据分析自动标签相匹配的模式。新万博移动客户端
  • 你和你的同事可以头脑风暴在Collibra正确的数据质量度量和度量在Collibra立即和定新万博移动客户端义它们。然后,您可以构建交互式仪表板让业务跟进和保持最新的当前状态数据景观。

数据概要图2

注入数据通过自动警报和问题管理质量意识

数据治理驱动数据质量。注入通过智能警报数据质量的心态在你的组织中,可以定义的数据以用户友好的方式管理。或者,您可以使用Spark-enabled机器学习模型,提出基于异常警报数据管家的描述数据。例如:

  • 使数据管理员定义简单的相对或绝对阈值与标准邮件通知使用一个用户友好的向导
  • 检验分析数据引用数据出现在Collibra参考数据,并自动警报时引用数据代码集所有者异形之间的不匹配的数据和代码设置值新万博移动客户端
  • 提供警报显示一个目录和全面概述定义警报在所有的数据集,提出了瓷砖显示警报的关键属性
  • 自动创建数据问题对于每一个违反对警报(Collibra数据帮助台)和被分配到数据的技术所有者对发现的违反新万博移动客户端

数据分析图像3

在数据治理,Collibra继续推动的边界数据通过自助购物,每个人的新万博移动客户端数据沿袭,数据分析和样本,和汽车警报和管理问题。我们欢迎你的意见。请订阅我们的用户参与项目

相关资源狗万新闻c

查看所有资源狗万新闻c

更多的故事

2022年9月8日-4最小值

为什么你需要一个企业数据目录呢

阅读更多
箭头
一个办公室职员展示他们的同事在电脑屏幕上的东西。
2022年3月25日-5最小值

数据沿袭和为什么它是重要的是什么?

阅读更多
箭头
2020年11月11日3最小值

驱动协作和数据驱动决策的新势力BI集成

阅读更多
箭头