DQ-Databricks提交
我们感动!改善客户体验,Collibra数据质量用户指南已经搬到新万博移动客户端
新万博移动客户端Collibra文档中心
作为Collibra数据质量2新万博移动客户端022.11发行版的一部分。为了确保无缝过渡,
dq-docs.新万博移动客户端collibra.com
将继续访问,但DQ用户指南现在维护只在文档中心。
在这一页,我们将演示两条路径运行火花砖的集群上提交的工作。第一种方法是运行DQ火花提交工作使用砖UI和第二种方法是通过调用数据砖rest API。
注意:这些只是例子来演示如何实现DQ火花提交砖的集群。这些路径不支持生产和DQ的团队不支持任何bug保险专业服务或客户对这些流问题。
有一些限制spark-submit砖在这一节中列出的工作:
https://docs.databricks.com/jobs.html创建作业
spark-submit也只是新集群的UI通过工作或调用REST api。看到第四步:
https://docs.databricks.com/jobs.html创建作业
在列表,spark-submit仅由新的集群。
-
1。格兰特Col新万博移动客户端libra DQ砖的数据库访问您的实例。
-
2。上传DQ罐子在砖文件系统(DBFS)。
-
3所示。环境变量设置为您的新集群。
-
4所示。准备DQ JSON载荷。
-
5。创建并运行你的工作。
-
6。看你的工作的状态和结果的DQ工作页面。
首先,确保确保砖实例访问DQ的数据库。
砖的罐子应该手动上传文件系统。砖网站上可以找到的步骤:
https://docs.databricks.com/data/databricks-file-system.html access-dbfs
这些干环境变量应该设置新的集群
:
SPRING_DATASOURCE_URL = xx
\SPRING_DATASOURCE_USERNAME = xx
\SPRING_DATASOURCE_DRIVER_CLASS_NAME = xx
\LICENSE_KEY = xx / / DQ的许可证密钥
设置集群DQ的环境变量。
一旦完成以上步骤,你可以提交一个火花提交作业和DQ的参数。载荷参数可以从DQ的web运行命令。你可以复制和粘贴准备一个JSON载荷参数。这是一个示例:
”——阶级”,
“com.owl.core.cli.OwlCheck”,
“dbfs:干/ / FileStore /猫头鹰——核心- 2022.02 - spark301 - jar————dependencies.jar”,
“自由”,
“dbfs:干/猫头鹰/司机/ / FileStore postgres”,
“q”,
“select * from xx.xxx”,
“-bhlb”,
“10”,
“路”,
“2022-03-16”,
“司机”,
“owl.com.org.postgresql.Driver”,
“-drivermemory”,
“4 g”,
“-cxn”,
“metastore”,
“- h”,
“xxxx.xxxxxx.amazonaws.com: xxxx / postgres”,
“- ds”,
“public.agent_2”,
“-deploymode”,
“集群”,
“-owluser”,
“admin”
]
然后您可以将环境变量添加到集群上运行并单击砖UI。
在砖UI创建一个工作
一旦提交的工作,您可以登录到您的DQ网络实例和检查工作的工作页面。
这条路我们需要做前一节的步骤1 - 4,然后调用REST API直接使用邮差,或你喜欢的API测试工具。我们假设按步骤2,干罐子上传到位置DBFS DBFS路径:/ FileStore /干。也应该上传到DBFS postgres JDBC驱动程序。例如:dbfs: /
FileStore /干/猫头鹰/司机/ postgres
-
1。准备DQ JSON载荷。
-
2。砖REST API进行身份验证。
示例JSON载荷:
POST / api / 2.1 /工作/运行/提交HTTP / 1.1
主持人:
xxxxxx.cloud.databricks.com
application / json \ ' - type:“\”授权:持票人
~ ~
xxxxxxxxxxxxx~ ~ \
cache - control: no - cache\
Postman-Token: xxxxxxxx
{
“任务”:(
{
“task_key”:“CDQ-SparkSubmitCallFinal”,
“spark_submit_task”:{
“参数”:(
”——阶级”,
“com.owl.core.cli.OwlCheck”,
“dbfs:干/ / FileStore /猫头鹰——核心- 2022.02 - spark301 - jar————dependencies.jar”,
“自由”,
“dbfs:干/猫头鹰/司机/ / FileStore postgres”,
“q”,
“从public.agent select *”,
“-bhlb”,
“10”,
“路”,
“2022-03-16”,
“司机”,
“owl.com.org.postgresql.Driver”,
“-drivermemory”,
“4 g”,
“-cxn”,
“metastore”,
“- h”,
“xxxs.amazonaws.com: xxx / postgres”,
“- ds”,
“public.agent_2”,
“-deploymode”,
“集群”,
“-owluser”,
“admin”
]
},
“new_cluster”:{
“cluster_name”:”“,
“spark_version”:“7.3.x-scala2.12”,
“aws_attributes”:{
“zone_id”:“us-east-1e”,
“first_on_demand”:1,
“可用性”:“SPOT_WITH_FALLBACK”,
“spot_bid_price_percent”:One hundred.,
“ebs_volume_count”:0
},
“node_type_id”:“i3.xlarge”,
“spark_env_vars”:{
“SPRING_DATASOURCE_URL”:" jdbc: postgresql: / / xxx-xx-xxs.amazonaws.com: xx / postgres”,
“SPRING_DATASOURCE_PASSWORD”:“xxx”,
“SPRING_DATASOURCE_USERNAME”:“xxx”,
“SPRING_DATASOURCE_DRIVER_CLASS_NAME”:“org.postgresql.Driver”,
“LICENSE_KEY”:“xxxx”
},
“enable_elastic_disk”:假,
“num_workers”:8
},
“timeout_seconds”:0
}
]
}
在以上载荷值更新:
集群变量:
“SPRING_DATASOURCE_URL”:
“SPRING_DATASOURCE_PASSWORD”:
“SPRING_DATASOURCE_USERNAME”:
“LICENSE_KEY”: / /干许可证密钥
' '
干变量\用户可以自定义变量基于从网络干他们选择的活动。他们可以从运行CMD选项复制变量的DQ工作粘贴Json消息。' '
身份验证设置数据砖Rest API
你可以把你的工作的结果由导航到DQ工作页面。
DQ工作提交从砖API