数据质量2022年11月18日4分钟读

宣布雪花的数据质量降低(测试版)

宣布一个令人兴奋的新功能-雪花的数据质量下推。此beta特性的目的是为同时使用云数据库的数据质量用户创造更快、更容易的价值。新的云原生供应商展示了可以扩展到数百个并发作业的工作负载，并具有自动扩展和其他功能。现在这甚至成为可能的原因之一是，与以往相比，云原生数据库中有更多的用户定义函数(udf)和更多的机器学习(ML)功能。新万博移动客户端Collibra利用这种增长实现了最佳的数据质量和可观察性下推解决方案。

运行没有下拉选项的DQ作业

当运行没有下推选项的DQ作业时，需要定义某些参数，例如所需的列或范围。然后还定义一些ML层，例如异常值或模式。

现在所有这些工作都需要处理，由Apache Spark计算引擎来完成。将参数定义的整个数据集读入Spark, Spark有自己的内存、cpu和计算资源。狗万新闻c它读取数据，然后进行分区和排序以执行查询。在此之后，它将数据写入，然后对其进行更多处理以获得异常值和模式。

源数据位于数据库中，它被读取出来。所有用户需求处理都在Spark中进行。然后Spark把所有结果写入DQ Metastore。

雪花的数据质量推送是什么?

在解释雪花的Pushdown之前，我们先来看看雪花是什么。它是最好的原生云数据平台。雪花数据平台不是建立在任何现有的数据库技术上或者Hadoop等“大数据”软件平台。相反，雪花结合了一个全新的SQL查询引擎和一个为云设计的创新架构。对于用户来说，Snowflake提供了企业分析数据库的所有功能，以及许多额外的特殊特性和独特的功能。

在后进先出存储的模型中，不需要Coll新万博移动客户端ibra DQ Agent来创建Apache Spark DQ Job。下推操作是运行数据库引擎来完成这项工作。下推函数将处理发送到Snowflake上的计算，以减少物理数据移动。

为什么我们要为雪花做俯卧撑?

Pushdown是运行DQ作业的另一种计算选项，其中所有关于数据质量的处理都提交给目标数据仓库。要使用下推，可以运行一个设置脚本，该脚本为DQ作业运行创建一个专用的雪花虚拟仓库和一个服务帐户用户。这个指定的服务帐户用户需要对具有目标数据的所有模式进行读访问。新万博移动客户端Collibra将为客户提供Snowflake Pushdown设置脚本，必须运行该脚本才能使用这一新功能。

还有几点可以解释其中的原因雪花俯卧撑是更好的选择．

计算资源狗万新闻c:当DQ作业以雪花下推模式运行时，您可以利用雪花架构的优势。这意味着规模不受限制。当需求更大时，服务器节点可以自动伸缩，然后根据需要再次缩小。
短暂的破裂:雪花上的大量处理可以“爆”到64或128个节点。处理数百万行和数百列的大型DQ Job会导致Snowflake崩溃。在DQ作业之后，系统将缩减规模。这个特性是SaaS(软件即服务)模型相对于静态硬件的优势。
数据隐私:使用Snowflake Pushdown，您的客户数据永远不会从Snowflake环境中读取。该特性对于隐私法规遵从和信息安全保证是有价值的。

那么雪花的数据质量推送到底能为我们的客户做些什么呢?它将自动生成SQL查询，将DQ计算卸载到数据源。它将减少数据传输量，并删除DQ作业的Apache Spark计算。

总之

新万博移动客户端针对雪花的Collibra数据质量推送(测试版)为客户解锁了指数级的节省，降低了TCO，降低了管理成本，提高了效率，并改进了按需扩展。你可以不需要单独的Apache Spark计算平台来运行Collibra数据质量和可观察性。新万博移动客户端

Laurent Weichberger

Collibra数据质量客户成功高级经理新万博移动客户端

Laurent管理Collibra DQ客户成功的一些客新万博移动客户端户端，专注于Apache Spark和DQ api。在过去的十年里，他曾在多家大数据公司工作过，包括Hortonworks、DataStax、Cloudera、Databricks等。作为我们的大数据熊，他利用自己丰富的经验帮助发现DQ用例，并确保DQ客户成功地实现他们的用例。他和妻子、孩子以及他们的猫卡迪嘉住在北卡罗来纳州。