代理

DQ座席配置指南
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到新万博移动客户端 新万博移动客户端Collibra文档中心 作为Collibra数据质量2新万博移动客户端022.11版本的一部分。为了确保平稳过渡, dq-docs.新万博移动客户端collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心进行维护。

如何安装新的DQ Agent

设置DQ代理使用setup.sh作为DQ包的一部分

使用setup.sh脚本位于/ opt /猫头鹰/(或其他 基本路径 您的安装使用)。参见示例代码块,在运行Postgres服务器时安装DQ代理本地主机在端口5432与数据库postgres和Postgres用户名/密码组合postgres/密码
#包含安装目录的dir路径
出口BASE_PATH = / opt
#安装代理的路径
出口INSTALL_PATH = / opt /猫头鹰
# DQ元数据Postgres存储设置
出口METASTORE_HOST = localhost
出口METASTORE_PORT = 5432
出口METASTORE_DB = postgres
出口METASTORE_USER = postgres
出口METASTORE_PASSWORD =密码
cd INSTALL_PATH美元
#只安装DQ代理
。/ setup.sh \
-owlbase = $ BASE_PATH \
选择= owlagent \
-pguser = $ METASTORE_USER \
-pgpassword = $ METASTORE_PASSWORD \
-pgserver = $ {METASTORE_HOST}: $ {METASTORE_PORT} / $ {METASTORE_DB}
设置脚本将自动生成/ opt /猫头鹰/ config / owl.properties文件和加密提供的密码。

手动设置DQ代理

  • DQ元数据Postgres存储的密码在存储之前应该加密/ opt /猫头鹰/ config / owl.properties文件。
#安装代理的路径
出口INSTALL_PATH = / opt /猫头鹰
cd INSTALL_PATH美元
#加密DQ元数据Postgres存储密码
。/ owlmanage.sh =加密密码
owlmanage.sh将为纯文本密码输入生成加密字符串。加密的字符串可用于/ opt /猫头鹰/ config / owl.properties配置文件,以避免暴露DQ元数据Postgres存储密码。
  • 要完成Owl Agent配置,请编辑/ opt /猫头鹰/ config / owl.properties基本代理值的配置文件:
vi INSTALL_PATH / config / owl.properties美元
  • 并添加以下属性
spring.datasource.url = jdbc: postgresql: / / {DB_HOST}: {DB_PORT} / {METASTORE_DB}
spring.datasource.username = {METASTORE_USER}
spring.datasource.password = {METASTORE_PASSWORD}
spring.datasource.driver-class-name = com.owl.org.postgresql.Driver
spring.agent.datasource.url = jdbc: postgresql: / / {DB_HOST}: {DB_PORT} / {METASTORE_DB}
spring.agent.datasource.username = {METASTORE_USER}
spring.agent.datasource.password = {METASTORE_PASSWORD}
spring.agent.datasource.driver-class-name = org.postgresql.Driver
  • 重启web应用程序

如何通过UI配置代理

  • 登录到DQ Web并导航到管理控制台。
图1:主页
  • 从管理控制台,单击Remote Agent tile。
图2:管理控制台
  • 用要编辑的代理标识行。
图3:Agent Management Table
  • 点击铅笔图标进行编辑。
图4:带有默认值的DQ Agent
当你添加一个新的 数据库连接 , DQ代理必须被授予通过指定代理运行DQ作业的权限。
在图3中,选择DQ Agent旁边的链接图标,建立到DB Connection的链接。如图5所示,将添加一个模式,允许代理通过DB连接名运行DQ作业。左侧面板是尚未链接到DQ代理的DB连接名列表。右侧面板是具有运行DQ作业权限的DB Connection名称列表。
双击DQ Connection名称从左到右移动。在图5中,名为“metastore”的DB Connection正在添加到DQ Agent中。点击“更新”按钮保存新的DB连接列表。
图5:将名为“metastore”的DB连接添加到DQ Agent
图6:如何将所有连接添加到选定的DQ代理

座席配置参数

参数
描述
是本地的
仅适用于Hadoop
是李维
弃用。不习惯。
基本路径
DQ的安装文件夹路径。DQ Agent中的所有其他路径都相对于此安装路径
这是设置的位置OWL_BASE在完全独立安装和其他安装设置,然后猫头鹰/文件夹中。例如,如果设置命令为出口OWL_BASE = / home / centos然后基本路径在Agent配置中应设置为/home/centos/owl/
默认值:/ opt /猫头鹰/
猫头鹰核心JAR
DQ Core jar文件的文件路径。默认的<基本路径> /猫头鹰/ bin /
Owl核心日志
DQ Core日志所在的文件夹路径。DQ作业的日志存储在此文件夹中。默认值:<基本路径> /猫头鹰/日志
Owl Web日志
DQ Web日志所在的文件夹路径。DQ Web App的日志存储在此文件夹中。默认值:<基本路径> /猫头鹰/日志
猫头鹰脚本
DQ执行脚本的文件路径owlcheck.sh.此脚本用于通过命令行运行DQ作业,而不使用代理。使用owlcheck.shDQ Agent执行模型取代了DQ job。默认值:<基本路径> /猫头鹰/ bin / owlcheck
部署方式
Spark部署模式客户端集群
默认的主
从Spark集群验证界面复制的Spark Master URL (火花:/ /……
缺省队列
YARN的默认资源队列
动态Spark分配
弃用。不习惯。
Spark Conf键
弃用。不习惯。
Spark配置值
弃用。不习惯。
遗嘱执行人数目
使用此代理运行DQ扫描时为每个DQ作业分配的默认执行程序数
Executer内存(GB)
使用此代理运行DQ扫描时,为每个DQ作业分配的每个执行程序的默认RAM
芯数(个)
使用此代理运行DQ扫描时为每个DQ作业分配的每个执行程序的默认内核数
驱动内存(GB)
使用此代理运行DQ扫描时为每个DQ作业分配的默认驱动程序RAM
免费表格(附)
其他spark-submit使用此代理运行DQ扫描时要附加到每个DQ作业的参数
图2:在D中编辑DQ Agent模式

创建HA组

如果您有多个DQ代理,那么您可以将它们建立为HA组。这样做时,请确保两个DQ代理都建立了与它们相同的连接。
  • 点击“代理组(H/A)”标签命名您的HA组,并将您想要参与的代理添加为组。注意:HA GROUPS将以循环方式执行作业。
  • 注册代理后,与DB连接关联,用户现在可以通过资源管理器页面执行作业。
图7:通过DQ Web Explorer执行Ad Hoc作业

图1:在一个DQ Web应用程序中使用CDH、HDP和EMR的DQ代理的高级描述
图1提供了DQ中代理如何工作的高级描述。作业执行由DQ作业驱动,这些DQ作业被写入agent_q表内的DQ元数据Postgres存储(Owl-Postres图1中的数据库)通过Web UI或REST API端点。可用的和运行的每个代理查询Owl-Postgres表每5秒执行代理负责的DQ作业。例如,EMR代理Owl-Agent3图1中只执行调度在EMR上运行的DQ作业。
当代理选择要执行的DQ作业时,代理将在代理节点本身本地或在集群上作为spark作业启动该作业(如果将代理设置为集群的边缘节点)。根据作业启动的位置,DQ作业的结果将写回DQ元数据存储(Owl-Postgres数据库)。然后,结果显示在DQ Web UI上,公开为REST API,并可用于直接SQL查询Owl-Postgres数据库。