数据智能云

联系我们

打电话给我们

办公室

电子邮件

美国

+1 646 893 3042

应收账款部

+1 646 974 0772

所有其他的

+32 2 793 02 19

北美:美国和加拿大

新万博移动客户端Collibra Inc .)
百老汇61号，31楼
美国纽约10006

EMEA:比利时

新万博移动客户端Collibra NV
Picardstraat 11b205，
1000布鲁塞尔-比利时

查看所有

登记进入

指示板
大学
数据的公民
市场

产品资源狗万新闻c
支持
开发人员门户

登录注册

通过注册，你就同意了Collibra新万博移动客户端隐私政策．

为合作伙伴

合作伙伴门户

数据公民社区

我的资料

编辑

约翰。史密斯

name@company.com

数据科学家，美国

利益

云计算数据

数字转换

数据治理

指示板签署了

新万博移动客户端Collibra网站

开发人员

合作伙伴

开发人员门户

合作伙伴门户

数据公民社区

数据质量2021年5月19日·5分钟读

可信赖分析和人工智能的预测数据质量

推特

电子邮件

AI和ML可以为自动化分析和决策提供巨大的推动，但它需要高质量的数据来发挥其真正的力量。随着数据量的增加和数据种类的增加，数据以越来越快的速度到达，数据质量被证明是可信分析和人工智能面临的最大挑战。

ML对数据有很大的胃口

在小数据集上训练的模型可能不能正确地表示模式。随着附加数据对模型的改进，ML模型将不断地从输入的新数据和结果反馈中学习。

ML模型在规模上可以提供更快的结果，但只有当输入的数据质量高时，结果才能准确。数据质量是在人工智能应用的三大障碍Gartner的一份报告称。一个现代的数据质量解决方案应该能够扫描大型和不同的数据库(包括文件和流数据)，而不需要移动或提取数据，加速新的数据质量管道和ML计划的开发。数据和模型是ml驱动分析的两大支柱;两者都必须是高质量的，以推动准确和可信的结果。

糟糕的数据+好的模型=糟糕的结果

ML的质量要求很高，坏数据可能会出现两次——第一次是用于训练预测模型的历史数据，第二次是用于该模型做出未来决策的新数据。

对于任何ML模型，训练数据集必须符合目的。报告内容应完整、正确，无空白或重复记录，有效。一个用低质量数据训练的模型，即使你给它提供高质量的输入数据，也不能提供预期的结果。

给数据贴上好或坏的标签很容易，但当您开始处理数据质量时，真正的挑战就变得显而易见了。

数据质量的含义:不同的利益相关者看数据质量从不同的角度。数据工程师和数据管理员倾向于高度重视个人记录的准确性。另一方面，数据消费者更喜欢考虑数据集而不是记录。他们理解准确性的重要性，但他们也想考虑其他属性，以正确地呈现业务健康状况和预测市场趋势。
测量数据质量:数据有几个属性或维度．并非所有维度都与上下文相关，也并非所有维度都对数据质量有同等的贡献。您可以选择与特定用例相关的3-6个维度，分配适当的权重，并确定组合分数。
数据质量的方法:仓促地、不连贯地测量和改进数据质量不会带来任何长期利益。考虑将数据质量作为数据策略的基本部分，使其与企业范围一致数据治理而且数据情报的努力。

数据质量不再仅仅是数据的准确性。它更多的是关于数据的可见性和购买正确数据的便利性。Gartner的研究建议专注于供应链，为数据消费者提供正确的数据。

好的数据+坏的模型=坏的结果

确保高质量的数据是迈向分析和人工智能的第一步。但是ML模型本身必须具有最高的质量，并且适合于计划的分析。

虽然ML对于一些业务用户来说仍然是一个黑盒，但数据科学家已经意识到成功的ML建模背后的努力。如果模型不好，即使是高质量的输入数据也会产生错误的结果。糟糕的模型可能是由于不充分、不完整、不相关或有偏见的训练数据。为了设计良好的、无偏差的、客观的ML模型，数据科学家需要不断地监控任何新的训练数据。

监控数据移动，以构建高质量的数据管道

可预测的、持续的、自助服务的数据质量

预测数据质量利用ML自动生成基于sql的、非专有的、可解释的和自适应的数据质量规则。系统可以不断地从数据中学习，以生成数据质量规则，每天变得越来越智能，并在问题出现时立即跟踪问题。监视数据漂移、异常值、模式和模式更改将帮助您随时间检测ML模型的准确性和性能。

可信的分析需要及时访问相关的高质量数据。但是数据质量并不是一次性的活动。随着时间的推移，数据的质量可能会恶化，并且数据可能在其企业旅程中失去完整性。如果用于准确性的数据质量规则过度负载数据流程，则会影响及时性。如果这些工具不能管理来自不同来源和不同环境(例如云、预置、混合)的大量和各种各样的数据，它们就会影响数据的及时性和可访问性。

让所有用户都做出贡献，加强了持续的质量努力，促进了质量文化。自助式数据质量解决方案使数据工程师、数据管理员、业务分析人员、数据科学家和所有管理人员能够自己识别并解决质量问题。

灵活的分布式Apache Spark™并行处理为大型数据库提供了更好的稳定性和快速的可伸缩性
一个自动生成和自适应规则减少了数据质量规则管理中的复杂性、瓶颈、重复和猜测
一个健壮的数据质量评估框架可以帮助您使用所选的质量维度定义单个评分
连续异常检测有助于监控和提高数据质量
强大的元数据管理功能可以捕获和协调用于数据质量处理的元数据
协作式自助服务访问提高了DataOps的生产力，并最大限度地缩短了周期时间

采用ml优先，规则第二的方法数据质量解决方案让你为未来做好准备，这与高德纳公司的预测一致:到2022年，60%的组织会利用杠杆支持ml的数据质量改进技术。

好的数据+好的模型+好的合作=可信的结果

数据工程师致力于使数据正确，而数据科学家则不断寻找要使用的正确数据。方法差距是数据质量和机器学习模型划分管理的关键原因。

Databricks通过一个简单、开放和协作的平台来弥合差距，为您的所有分析工作负载存储和管理所有数据。新万博移动客户端Collibra提供了本地集成功能砖lakehouse实现持续、智能的数据质量监控。它们共同提供了高质量、可重用的数据管道，以支持可信的结果。

不再有竖井Databricks为结构化、半结构化和非结构化数据提供了一个具有单一开放格式存储层(Delta Lake)的高度可伸缩湖屋基础。
连续的高质量数据管道: 新万博移动客户端Collibra通过自动化治理和沿袭跟踪，帮助确保高质量的数据管道，预测数据质量规则不断适应到达湖屋的数据。
自动定量: Databricks的自动伸缩基础设施为高性能的快速数据管道提供动力。
可信的结果:协作平台上持续、自助、合规的数据质量，可获得可信、无偏差的分析结果。

当好的数据和好的模型找到一个统一的、可扩展的、具有卓越协作能力的平台时，你的AI / ML计划就可以交付值得信赖的结果。可信的分析和人工智能推动更有效的决策、更高的生产力和更好的成本效益。可预测的、持续的和自助服务的数据质量在一起Databricks Lakehouse平台是您实现可信分析和人工智能的方式。