DQ-Databricks提交

我们感动!改善客户体验,Collibra数据质量用户指南已经搬到新万博移动客户端 新万博移动客户端Collibra文档中心 作为Collibra数据质量2新万博移动客户端022.11发行版的一部分。为了确保无缝过渡, dq-docs.新万博移动客户端collibra.com 将继续访问,但DQ用户指南现在维护只在文档中心。

介绍

在这一页,我们将演示两条路径运行火花砖的集群上提交的工作。第一种方法是运行DQ火花提交工作使用砖UI和第二种方法是通过调用数据砖rest API。
注意:这些只是例子来演示如何实现DQ火花提交砖的集群。这些路径支持生产和DQ的团队支持任何bug保险专业服务或客户对这些流问题。

限制

有一些限制spark-submit砖在这一节中列出的工作: https://docs.databricks.com/jobs.html创建作业 spark-submit也只是新集群的UI通过工作或调用REST api。看到第四步: https://docs.databricks.com/jobs.html创建作业 在列表,spark-submit仅由新的集群。

步骤来创建并运行一个火花从砖提交工作界面:

  1. 1。
    格兰特Col新万博移动客户端libra DQ砖的数据库访问您的实例。
  2. 2。
    上传DQ罐子在砖文件系统(DBFS)。
  3. 3所示。
    环境变量设置为您的新集群。
  4. 4所示。
    准备DQ JSON载荷。
  5. 5。
    创建并运行你的工作。
  6. 6。
    看你的工作的状态和结果的DQ工作页面。

数据库访问

首先,确保确保砖实例访问DQ的数据库。
整个子网必须白名单来连接到数据库。在指定 砖对子网的文档 ,砖必须获得至少两个子网为每个数据库。连接到两个砖子网的节点将被实例化,你必须允许AWS白名单你的IP地址范围。

上传DQ DBFS的罐子

砖的罐子应该手动上传文件系统。砖网站上可以找到的步骤: https://docs.databricks.com/data/databricks-file-system.html access-dbfs

新的集群环境变量:

这是砖的文档关于如何设置环境变量: https://docs.databricks.com/clusters/configure.html环境变量
这些干环境变量应该设置新的集群:SPRING_DATASOURCE_URL = xx\SPRING_DATASOURCE_USERNAME = xx\SPRING_DATASOURCE_DRIVER_CLASS_NAME = xx\LICENSE_KEY = xx / / DQ的许可证密钥
设置集群DQ的环境变量。

JSON载荷

一旦完成以上步骤,你可以提交一个火花提交作业和DQ的参数。载荷参数可以从DQ的web运行命令。你可以复制和粘贴准备一个JSON载荷参数。这是一个示例:
”——阶级”,
“com.owl.core.cli.OwlCheck”,
“dbfs:干/ / FileStore /猫头鹰——核心- 2022.02 - spark301 - jar————dependencies.jar”,
“自由”,
“dbfs:干/猫头鹰/司机/ / FileStore postgres”,
“q”,
“select * from xx.xxx”,
“-bhlb”,
“10”,
“路”,
“2022-03-16”,
“司机”,
“owl.com.org.postgresql.Driver”,
“-drivermemory”,
“4 g”,
“-cxn”,
“metastore”,
“- h”,
“xxxx.xxxxxx.amazonaws.com: xxxx / postgres”,
“- ds”,
“public.agent_2”,
“-deploymode”,
“集群”,
“-owluser”,
“admin”
]

运行作业

一旦你完成了上面的步骤,你可以 创建一个火花提交工作 通过砖UI。
然后您可以将环境变量添加到集群上运行并单击砖UI。
在砖UI创建一个工作

检查结果在DQ网络:

一旦提交的工作,您可以登录到您的DQ网络实例和检查工作的工作页面。

火花提交通过调用数据砖REST API

有公共REST API可用于工作API, 包括最新版本
这条路我们需要做前一节的步骤1 - 4,然后调用REST API直接使用邮差,或你喜欢的API测试工具。我们假设按步骤2,干罐子上传到位置DBFS DBFS路径:/ FileStore /干。也应该上传到DBFS postgres JDBC驱动程序。例如:dbfs: /FileStore /干/猫头鹰/司机/ postgres

步骤:

  1. 1。
    准备DQ JSON载荷。
  2. 2。
    砖REST API进行身份验证。

JSON载荷

示例JSON载荷:
POST / api / 2.1 /工作/运行/提交HTTP / 1.1主持人: xxxxxx.cloud.databricks.com application / json \ ' - type:“\”授权:持票人~ ~xxxxxxxxxxxxx~ ~ \cache - control: no - cache\Postman-Token: xxxxxxxx
{
“任务”:(
{
“task_key”:“CDQ-SparkSubmitCallFinal”,
“spark_submit_task”:{
“参数”:(
”——阶级”,
“com.owl.core.cli.OwlCheck”,
“dbfs:干/ / FileStore /猫头鹰——核心- 2022.02 - spark301 - jar————dependencies.jar”,
“自由”,
“dbfs:干/猫头鹰/司机/ / FileStore postgres”,
“q”,
“从public.agent select *”,
“-bhlb”,
“10”,
“路”,
“2022-03-16”,
“司机”,
“owl.com.org.postgresql.Driver”,
“-drivermemory”,
“4 g”,
“-cxn”,
“metastore”,
“- h”,
“xxxs.amazonaws.com: xxx / postgres”,
“- ds”,
“public.agent_2”,
“-deploymode”,
“集群”,
“-owluser”,
“admin”
]
},
“new_cluster”:{
“cluster_name”:”“,
“spark_version”:“7.3.x-scala2.12”,
“aws_attributes”:{
“zone_id”:“us-east-1e”,
“first_on_demand”:1,
“可用性”:“SPOT_WITH_FALLBACK”,
“spot_bid_price_percent”:One hundred.,
“ebs_volume_count”:0
},
“node_type_id”:“i3.xlarge”,
“spark_env_vars”:{
“SPRING_DATASOURCE_URL”:" jdbc: postgresql: / / xxx-xx-xxs.amazonaws.com: xx / postgres”,
“SPRING_DATASOURCE_PASSWORD”:“xxx”,
“SPRING_DATASOURCE_USERNAME”:“xxx”,
“SPRING_DATASOURCE_DRIVER_CLASS_NAME”:“org.postgresql.Driver”,
“LICENSE_KEY”:“xxxx”
},
“enable_elastic_disk”:,
“num_workers”:8
},
“timeout_seconds”:0
}
]
}
在以上载荷值更新:
集群变量:“SPRING_DATASOURCE_URL”:“SPRING_DATASOURCE_PASSWORD”:“SPRING_DATASOURCE_USERNAME”:“LICENSE_KEY”: / /干许可证密钥' '
干变量\用户可以自定义变量基于从网络干他们选择的活动。他们可以从运行CMD选项复制变量的DQ工作粘贴Json消息。' '

砖REST API进行身份验证

这是砖文档如何创建一个个人访问令牌: https://docs.databricks.com/dev-tools/api/latest/authentication.html
身份验证设置数据砖Rest API

在DQ web查看工作的结果

你可以把你的工作的结果由导航到DQ工作页面。
DQ工作提交从砖API