雪花叠加

我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到新万博移动客户端 新万博移动客户端Collibra文档中心 作为Collibra数据质量2新万博移动客户端022.11版本的一部分。为了确保平稳过渡, dq-docs.新万博移动客户端collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心进行维护。
截至2022.08年,雪花推送仅作为内测版本提供给参与的客户。由于这是一个beta特性,一些功能可能会受到限制。
Pushdown是运行DQ作业的另一种计算方法,其中作业的所有处理都提交给一个SQL数据仓库,比如Snowflake。雪花Pushdown作业生成SQL查询,将计算卸载到数据源,减少了DQ作业的数据传输量和Spark计算量。
通过运行Snowflake Pushdown作业,您可以:
  • 减少延迟。
  • 消除对Spark计算运行Collibra数据质量的依赖,并提高处理速度。新万博移动客户端
  • 消除针对大型数据集运行DQ作业的出口成本。
  • 根据您的加工要求自动缩放。
有关雪花的更多信息,请参见 雪花的文档

先决条件

在运行Snowflake Pushdown作业之前,具有Admin权限的用户必须:

下推vs上拉

新万博移动客户端Collibra DQ Pull Up是一个没有下推的DQ作业,其中所有的处理都在Apache Spark计算引擎内部执行。源数据存储在数据库中,Spark将其读取出来,在选择作用域、定义范围和添加构建层时设置的参数将被分区和排序。然后将剖面作业的结果记录在DQ Metastore中。根据数据集的大小和执行的DQ检查的数量,这个过程会大大减慢运行时间,因为Spark有自己的计算资源,比如内存和cpu。狗万新闻cPull up对分析的支持有限,但如果不设置Spark就不能运行它。
使用Snowflake Pushdown,不再需要创建Ap新万博移动客户端ache Spark DQ作业的Collibra DQ Agent。不需要代理提交雪花推送作业,因为所有的处理都直接发送给雪花。因此,对于Snowflake Pushdown作业,Agent ID总是设置为0。
使用Snowflake,您还可以根据DQ作业的特定要求扩展您的计算需求。这是因为雪花的架构具有自动缩放功能,允许您自动缩放破裂当您需要更大的处理需求时,可以将其扩展到64或128个节点。当DQ作业不需要健壮的处理时,雪花也会自动缩小规模。通过自动伸缩,数据的处理得到了增强,提高了运行时性能,并消除了读取大量数据的出口成本。