DQ-Databricks提交

                         
                              我们感动!改善客户体验,Collibra数据质量用户指南已经搬到新万博移动客户端
                              
                              新万博移动客户端Collibra文档中心
                              
                              作为Collibra数据质量2新万博移动客户端022.11发行版的一部分。为了确保无缝过渡,
                              
                              dq-docs.新万博移动客户端collibra.com
                              
                              将继续访问,但DQ用户指南现在维护只在文档中心。
                             
                         介绍
                         
                        在这一页,我们将演示两条路径运行火花砖的集群上提交的工作。第一种方法是运行DQ火花提交工作使用砖UI和第二种方法是通过调用数据砖rest API。
                       
                              注意:这些只是例子来演示如何实现DQ火花提交砖的集群。这些路径不支持生产和DQ的团队不支持任何bug保险专业服务或客户对这些流问题。
                             
                         限制
                         
                        有一些限制spark-submit砖在这一节中列出的工作:
                        
                        https://docs.databricks.com/jobs.html创建作业
                        
                        spark-submit也只是新集群的UI通过工作或调用REST api。看到第四步:
                        
                        https://docs.databricks.com/jobs.html创建作业
                        
                        在列表,spark-submit仅由新的集群。
                       
                         步骤来创建并运行一个火花从砖提交工作界面:
                         
                       1。
                               格兰特Col新万博移动客户端libra DQ砖的数据库访问您的实例。
                              
2。
                               上传DQ罐子在砖文件系统(DBFS)。
                              
3所示。
                               环境变量设置为您的新集群。
                              
4所示。
                               准备DQ JSON载荷。
                              
5。
                               创建并运行你的工作。
                              
6。
                               看你的工作的状态和结果的DQ工作页面。
                              
                         数据库访问
                         
                        首先,确保确保砖实例访问DQ的数据库。
                       
                        整个子网必须白名单来连接到数据库。在指定
                        
                        砖对子网的文档
                        
                        ,砖必须获得至少两个子网为每个数据库。连接到两个砖子网的节点将被实例化,你必须允许AWS白名单你的IP地址范围。
                       
                         上传DQ DBFS的罐子
                         
                        砖的罐子应该手动上传文件系统。砖网站上可以找到的步骤:
                        
                        https://docs.databricks.com/data/databricks-file-system.html access-dbfs
                        
                         新的集群环境变量:
                         
                        这是砖的文档关于如何设置环境变量:
                        
                        https://docs.databricks.com/clusters/configure.html环境变量
                        
                        这些干环境变量应该设置新的集群:SPRING_DATASOURCE_URL = xx\SPRING_DATASOURCE_USERNAME = xx\SPRING_DATASOURCE_DRIVER_CLASS_NAME = xx\LICENSE_KEY = xx / / DQ的许可证密钥
                       
                              设置集群DQ的环境变量。
                             
                         JSON载荷
                         
                        一旦完成以上步骤,你可以提交一个火花提交作业和DQ的参数。载荷参数可以从DQ的web运行命令。你可以复制和粘贴准备一个JSON载荷参数。这是一个示例:
                       
                            ”——阶级”,
                           
                            “com.owl.core.cli.OwlCheck”,
                           
                            “dbfs:干/ / FileStore /猫头鹰——核心- 2022.02 - spark301 - jar————dependencies.jar”,
                           
                            “自由”,
                           
                            “dbfs:干/猫头鹰/司机/ / FileStore postgres”,
                           
                            “q”,
                           
                            “select * from xx.xxx”,
                           
                            “-bhlb”,
                           
                            “10”,
                           
                            “路”,
                           
                            “2022-03-16”,
                           
                            “司机”,
                           
                            “owl.com.org.postgresql.Driver”,
                           
                            “-drivermemory”,
                           
                            “4 g”,
                           
                            “-cxn”,
                           
                            “metastore”,
                           
                            “- h”,
                           
                            “xxxx.xxxxxx.amazonaws.com: xxxx / postgres”,
                           
                            “- ds”,
                           
                            “public.agent_2”,
                           
                            “-deploymode”,
                           
                            “集群”,
                           
                            “-owluser”,
                           
                            “admin”
                           
                            ]
                           
                         运行作业
                         
                        一旦你完成了上面的步骤,你可以
                        
                        创建一个火花提交工作
                        
                        通过砖UI。
                       
                        然后您可以将环境变量添加到集群上运行并单击砖UI。
                       
                              在砖UI创建一个工作
                             
                         检查结果在DQ网络:
                         
                        一旦提交的工作,您可以登录到您的DQ网络实例和检查工作的工作页面。
                       
                         火花提交通过调用数据砖REST API
                         
                        有公共REST API可用于工作API,
                        
                        包括最新版本
                        
                        。
                       
                        这条路我们需要做前一节的步骤1 - 4,然后调用REST API直接使用邮差,或你喜欢的API测试工具。我们假设按步骤2,干罐子上传到位置DBFS DBFS路径:/ FileStore /干。也应该上传到DBFS postgres JDBC驱动程序。例如:dbfs: /FileStore /干/猫头鹰/司机/ postgres
                       
                         步骤:
                         
                       1。
                               准备DQ JSON载荷。
                              
2。
                               砖REST API进行身份验证。
                              
                         JSON载荷
                         
                        示例JSON载荷:
                       
                        POST / api / 2.1 /工作/运行/提交HTTP / 1.1主持人:
                        
                        xxxxxx.cloud.databricks.com
                        
                        application / json \ ' - type:“\”授权:持票人~ ~xxxxxxxxxxxxx~ ~ \cache - control: no - cache\Postman-Token: xxxxxxxx
                       
                            {
                           
                            “任务”:(
                           
                            {
                           
                            “task_key”:“CDQ-SparkSubmitCallFinal”,
                           
                            “spark_submit_task”:{
                           
                            “参数”:(
                           
                            ”——阶级”,
                           
                            “com.owl.core.cli.OwlCheck”,
                           
                            “dbfs:干/ / FileStore /猫头鹰——核心- 2022.02 - spark301 - jar————dependencies.jar”,
                           
                            “自由”,
                           
                            “dbfs:干/猫头鹰/司机/ / FileStore postgres”,
                           
                            “q”,
                           
                            “从public.agent select *”,
                           
                            “-bhlb”,
                           
                            “10”,
                           
                            “路”,
                           
                            “2022-03-16”,
                           
                            “司机”,
                           
                            “owl.com.org.postgresql.Driver”,
                           
                            “-drivermemory”,
                           
                            “4 g”,
                           
                            “-cxn”,
                           
                            “metastore”,
                           
                            “- h”,
                           
                            “xxxs.amazonaws.com: xxx / postgres”,
                           
                            “- ds”,
                           
                            “public.agent_2”,
                           
                            “-deploymode”,
                           
                            “集群”,
                           
                            “-owluser”,
                           
                            “admin”
                           
                            ]
                           
                            },
                           
                            “new_cluster”:{
                           
                            “cluster_name”:”“,
                           
                            “spark_version”:“7.3.x-scala2.12”,
                           
                            “aws_attributes”:{
                           
                            “zone_id”:“us-east-1e”,
                           
                            “first_on_demand”:1,
                           
                            “可用性”:“SPOT_WITH_FALLBACK”,
                           
                            “spot_bid_price_percent”:One hundred.,
                           
                            “ebs_volume_count”:0
                           
                            },
                           
                            “node_type_id”:“i3.xlarge”,
                           
                            “spark_env_vars”:{
                           
                            “SPRING_DATASOURCE_URL”:" jdbc: postgresql: / / xxx-xx-xxs.amazonaws.com: xx / postgres”,
                           
                            “SPRING_DATASOURCE_PASSWORD”:“xxx”,
                           
                            “SPRING_DATASOURCE_USERNAME”:“xxx”,
                           
                            “SPRING_DATASOURCE_DRIVER_CLASS_NAME”:“org.postgresql.Driver”,
                           
                            “LICENSE_KEY”:“xxxx”
                           
                            },
                           
                            “enable_elastic_disk”:假,
                           
                            “num_workers”:8
                           
                            },
                           
                            “timeout_seconds”:0
                           
                            }
                           
                            ]
                           
                            }
                           
                        在以上载荷值更新:
                       
                        集群变量:“SPRING_DATASOURCE_URL”:“SPRING_DATASOURCE_PASSWORD”:“SPRING_DATASOURCE_USERNAME”:“LICENSE_KEY”: / /干许可证密钥' '
                       
                        干变量\用户可以自定义变量基于从网络干他们选择的活动。他们可以从运行CMD选项复制变量的DQ工作粘贴Json消息。' '
                       
                         砖REST API进行身份验证
                         
                        这是砖文档如何创建一个个人访问令牌:
                        
                        https://docs.databricks.com/dev-tools/api/latest/authentication.html
                        
                              身份验证设置数据砖Rest API
                             
                         在DQ web查看工作的结果
                         
                        你可以把你的工作的结果由导航到DQ工作页面。
                       
                              DQ工作提交从砖API
最后修改8月前