数据质量:由api驱动增压现代数据管道可伸缩性和效率

产品

交谈后与20多个客户数据质量在现代数据管道,我想分享我的见解的利弊内部(内存)处理与外部(基于api) DQ引擎集成。组织越来越多地采用不同的技术来维护数据质量,很难选择最有效的策略。在这个博客中,我的目标是提供洞察力和最佳实践的集合数据质量管理,强调使用api的好处整合外部数据引擎侧重于数据质量。

内部处理与外部数据质量的解决方案manbetx1.0下载

在现代数据管道,维护数据质量是必不可少的推导准确的洞察力和做出明智的决定。有两种主要的方法来考虑为集成数据质量检查在ETL过程中:

  • 内部处理使用现有的功能
  • 外部解决方案,利用manbetx1.0下载一个基于api的DQ执行引擎

内部处理涉及应用数据质量检查和转换,然后保存数据到下一个阶段的管道。虽然这种方法可以实时数据质量检查,它可以是资源密集型的,特别是对大型数据集。此外,ETL失败仍可能发生在加载过程中(左),可能导致数据不一致之间的分段和着陆区,尽管验证后提取(E)。

另外,外部数据质量解决方案允许组织利用一个基于api的DQ执行引擎,提供一manbetx1.0下载个更加可伸缩和有效的选择。REST api促进外部数据质量的集成引擎通过标准化的接口,频繁使用UI。该方法降低了ETL的失败的风险,保证分段之间的一致性和着陆区。数据继续检查管道内没有给一个函数。

当使用内部和外部DQ方法,您可以直接数据质量检查适用于各种类型的数据:

  1. 数据,例如当存储在数据库或数据湖
  2. 在运动数据,比如流数据或在ETL过程中

值得注意的是,一个管道可以有休息的实例数据在运动时,在卡夫卡的主题和队列或多个结构化的区域。

灵感来自软件开发和治疗数据代码,数据管道设计可以应用类似的最佳实践中发现CI / CD(持续集成/持续部署)管道。詹金斯不仅把JIRA投入生产的一个片段。

最佳实践设计数据与数据质量检查管道

集成数据质量检查在管道的不同阶段可以确保数据验证和发展到下一阶段前清洗。它反映了测试代码和精炼之前通过多种环境中部署。

有几个最佳实践时需要考虑的设计数据管道,将数据质量的检查:

  1. 模块化设计:创建一个模块化的管道设计,数据质量检查,转换和存储,便于维护,规模,和更新。这种方法允许灵活地选择内部和外部数据质量检查,甚至是两者的结合。
  2. 持续的监控和验证:实现持续的监控和验证数据质量在整个管道,确保任何问题发现和及时解决。这种做法帮助维持整体数据质量,使更好的决策基于准确和可靠的数据。
  3. 版本控制和数据沿袭:把数据当作代码和应用版本控制实践跟踪数据质量检查的变化,转换和模式。维护数据血统,以确保可追溯性和问责制,使其更容易调试和解决问题时出现。

在可扩展性方面,外部解决方案提供一个更模块化、可维护和可伸缩的方法来manbetx1.0下载管理数据的质量。api提供一个标准化接口将数据质量检查集成到现有的数据管道,使其更容易吸收新的验证规则或更新现有的。这种灵活性降低了需要大量的返工和重新设计,允许开发团队更有效地分配资源,专注于高优先级任务。狗万新闻c

现实生活的例子

我们的一个客户,一个著名的金融服务公司,提供了一个令人信服的例子的好处外部数据质量目标静态数据的解决方案。manbetx1.0下载最初,客户端采用卡夫卡流体系结构来管理他们的大规模数据处理的需求。但是他们努力维护数据质量在他们数据湖。

集成数据质量检查在卡夫卡流体系结构会导致35%的激增的基础设施和维护费用和开发成本增加20%相比,基于一个api的方法。

基于通过拥抱一个api的数据质量解决方案,客户的业务,缓解了他们的资源的负担,导致基础设施成本减少25%和15%的降低开发成本。狗万新闻c此外,加强数据质量使他们的分析团队获得更准确的见解。反过来,它改善决策和积极影响到公司的底线。

关键的见解从这个金融服务公司的经验是,扫描卡夫卡主题和队列的数据质量检查证明效率低下。他们发现,进行数据质量扫描较大的暂存区,静止数据,提供了一个更高效和有效的方法。

通过专注于扫描静态数据暂存区而不是内存数据或重载卡夫卡主题和队列,客户端建立更多的资源解决方案确保数据质量。这种方法允许他们利用基于api的数据质量检查执行的好处同时最小化对实时数据处理基础设施的影响。

结论

最终,在内部和外部DQ方式各有千秋,基于api方法提供了几个优势,尤其是在可伸缩性、效率和成本效manbetx1.0下载益。我鼓励组织考虑他们的特定的用例和需求选择DQ方法。通过这样做,企业可以利用他们的数据的全部潜力,推动更好的决策和实现竞争优势。有些场景可能仍然受益于内部处理,特别是当实时数据质量检查是至关重要的。

新万博移动客户端Collibra数据质量和可观察性可以支持基于内存和api的DQ处理,为我们的客户提供的灵活性和通用性。我们的DQ库使无缝集成各种编程语言,比如Scala和Py4J,迎合不同的用例和技术栈。看看我们的解决方案如何满足你的用例!

想了解更多吗?

请求一个演示

相关资源狗万新闻c

博客

为什么投资数据质量和可观察性

博客

释放难以置信的数据质量和可观测性与柯克Haslbeck创新

博客

数据可观测性:拥抱DataOps可观测性

查看所有资源狗万新闻c

更多的故事

2023年5月15日-4最小值

陈旧的数据令人尴尬的真相

阅读更多
箭头
2023年4月11日7最小值

不要让坏数据拖累你:零售商的指南

阅读更多
箭头
2023年1月18日-5最小值

数据可观测性:拥抱DataOps可观测性

阅读更多
箭头