后进先出存储的

重要的我们兴奋地提供了一个新的叠加体验!叠加的版本描述这个页面上发布了一个测试版特性对于某些数据源和处理能力有限的完整形象和计数选项。检查新文档页面更多地了解叠加增强体验。

一些Collibra D新万博移动客户端Q特性支持叠加,以避免传输大数据集从数据源(数据库、云存储、文件系统等)到火花。叠加和支持启用时,DQ工作将生成SQL查询将计算到数据源,减少传输的数据量和火花DQ的计算工作。不是所有的功能都支持下推也不叠加完全消除数据传输。

为什么使用叠加

分析的数据集DQ发现DQ的一部分工作,干使用火花作为计算引擎动力分析。这需要加载到数据集DataFrame火花,火花和DQ工作表现(作业完成速度)由火花可用资源有限,这项工作的复杂性。狗万新闻c这个数据传输从数据源到火花取决于以下两个因素:

  1. 带宽限制在数据源上

    如果DQ工作要求把1亿行从一个SQL数据库,然后传输数据的输入/输出限制的SQL数据库集群的整体速度将大大增加火花DQ工作。

  2. 计算限制数据源的复杂查询

    如果DQ工作需要复杂的查询(通过创建数据集q),那么这个计算是在SQL数据库完成的水平。“复杂”的一些示例查询:

    q”从公共选择*。very_long_table_of_transactions日期= $ {rd}和部门=金融”

    该查询可以长时间在数据库级由于在哪里条款过滤很长表列日期部门这可能无法正确索引,导致没有一个全表扫描限制子句指定。

    q”从公共选择*。very_long_table_of_transactions事务内连接public.departments transactions.department_id = departiments部门。id的地方事务。日期= ${rd} and departments.name = 'finance'"

    这个查询在数据库级别上可以长时间将表之间的连接。

  3. 在数据源资源限制

    数据源可能没有足够的可用硬件资源来有效地实现查询和/或处理多个DQ工作&其他non-CDQ应用程序请求的数据。

由于数据传输瓶颈工作页面中可以查看> >荷载阶段的工作日志。这个数据加载步骤的第一步是对所有DQ工作。然而,可用于叠加特性减少(而不是消除)数据传输和计算引发从数据源,如果指定的DQ工作不需要所有的数据加载到火花。

总之,速度加载数据从数据源到火花q在数据源查询计算时间+q之间的结果数据的网络传输源和火花。叠加可以减少两个元素,但是获得的效率依赖于的复杂性q查询和数据集的大小q没有叠加的结果。

如何有效叠加

的一些火花DQ工作执行的计算可以转化为本地SQL查询,大多数关系数据库支持。在这种情况下,DQ工作不需要加载数据集的所有行。相反,DQ工作可以查询数据源SQL查询的结果,减少传输的数据量的数据源。这些SQL查询的结果几乎总是导致较小的数据量而定义的完整的数据集q。只有一些DQ工作特性需要完整的数据集加载到火花。因此,叠加可以是一个有用的工具来加速整个DQ速度——工作提供执行这些SQL查询的速度快的速度将数据源的数据转移到火花。在大多数用例,叠加导致加快大型数据集的DQ作业执行。如果q查询是足够复杂,那么速度减少更少的数据移植到火花可以被取消的多个频繁的SQL查询了下推到数据源的过程(因为每个查询可能有冗余计算的复杂性q)。

叠加在干工作如何

只使用叠加减少了传输的数据量的数据源。它不跳过加载阶段DQ工作。每个DQ工作需要一个小样本的行(10 - 20)定义的数据集q为了生成数据预览信息数据集运行和分析模式。这意味着q在数据源查询可能完全计算抽样可能发生(取决于的复杂性q)。在这种情况下,抽样10 - 20行数据不是一个快速和直接加载阶段,只有效率获得来自数据源之间缺乏数据传输和火花。

因此,将是最有效的,如果叠加特性q是一个简单的select查询通过简单的过滤。好处来自这样一个事实:如果你的数据集定义的q结果在1亿行,只有10 - 20行定义的数据集q将会加载到火花。

概要文件与叠加会产生一系列SQL查询和查询再次聚合度量数据的数据源。根据不同的数据集,这些可以更高效的多个SQL查询所有的数据加载到火花总度量和计算这些火花。结果之间的配置文件后进先出存储的配置文件没有后进先出存储的(实际上)是相同的。

简介:叠加vs不叠加

这是总结的关于叠加剖面活动细节支持

功能 支持下推 描述
行数 是的 计算数据集的行数。
不同的数 是的 一列中不同值的数量。
的意思是 是的 列中的所有值的平均值。只支持数字列。
最小/最大 是的 列的最小和最大值。只支持数字和布尔值列。
空数 是的 空值的列的数量。
空的数 是的 空值的列的数量。只支持字符串列。
类型的数 是的 不同类型推断的数量一列(如果有的话)。
TopN / BottomN 没有

计算最频繁的(TopN)和至少五频繁(BottomN)值。支持所有类型。

这个结果显示在个人资料页面频率条形图。如果启用了叠加,然后TopN BottomN值不显示。相关的功能,如统计规则(分布)也禁用。

数据形状检测 没有 检测形状提供的基于形状参数值(自动或手动)。
柱状图 没有 创建列中的值的柱状图。
相关矩阵 没有 创建相关矩阵。只支持数字列。