代理
DQ座席配置指南
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到新万博移动客户端
新万博移动客户端Collibra文档中心
作为Collibra数据质量2新万博移动客户端022.11版本的一部分。为了确保平稳过渡,
dq-docs.新万博移动客户端collibra.com
仍然可以访问,但DQ用户指南现在只在文档中心进行维护。
使用
setup.sh
脚本位于/ opt /猫头鹰/
(或其他
基本路径
您的安装使用)。参见示例代码块,在运行Postgres服务器时安装DQ代理本地主机
在端口5432
与数据库postgres
和Postgres用户名/密码组合postgres
/密码
#包含安装目录的dir路径
出口BASE_PATH = / opt
#安装代理的路径
出口INSTALL_PATH = / opt /猫头鹰
# DQ元数据Postgres存储设置
出口METASTORE_HOST = localhost
出口METASTORE_PORT = 5432
出口METASTORE_DB = postgres
出口METASTORE_USER = postgres
出口METASTORE_PASSWORD =密码
cd INSTALL_PATH美元
#只安装DQ代理
。/ setup.sh \
-owlbase = $ BASE_PATH \
选择= owlagent \
-pguser = $ METASTORE_USER \
-pgpassword = $ METASTORE_PASSWORD \
-pgserver = $ {METASTORE_HOST}: $ {METASTORE_PORT} / $ {METASTORE_DB}
设置脚本将自动生成
/ opt /猫头鹰/ config / owl.properties
文件和加密提供的密码。
-
DQ元数据Postgres存储的密码在存储之前应该加密
/ opt /猫头鹰/ config / owl.properties
文件。
#安装代理的路径
出口INSTALL_PATH = / opt /猫头鹰
cd INSTALL_PATH美元
#加密DQ元数据Postgres存储密码
。/ owlmanage.sh =加密密码
owlmanage.sh
将为纯文本密码输入生成加密字符串。加密的字符串可用于/ opt /猫头鹰/ config / owl.properties
配置文件,以避免暴露DQ元数据Postgres存储密码。
-
要完成Owl Agent配置,请编辑
/ opt /猫头鹰/ config / owl.properties
基本代理值的配置文件:
vi INSTALL_PATH / config / owl.properties美元
-
并添加以下属性
spring.datasource.url = jdbc: postgresql: / / {DB_HOST}: {DB_PORT} / {METASTORE_DB}
spring.datasource.username = {METASTORE_USER}
spring.datasource.password = {METASTORE_PASSWORD}
spring.datasource.driver-class-name = com.owl.org.postgresql.Driver
spring.agent.datasource.url = jdbc: postgresql: / / {DB_HOST}: {DB_PORT} / {METASTORE_DB}
spring.agent.datasource.username = {METASTORE_USER}
spring.agent.datasource.password = {METASTORE_PASSWORD}
spring.agent.datasource.driver-class-name = org.postgresql.Driver
-
重启web应用程序
-
登录到DQ Web并导航到管理控制台。
图1:主页
-
从管理控制台,单击Remote Agent tile。
图2:管理控制台
-
用要编辑的代理标识行。
图3:Agent Management Table
-
点击铅笔图标进行编辑。
图4:带有默认值的DQ Agent
在图3中,选择DQ Agent旁边的链接图标,建立到DB Connection的链接。如图5所示,将添加一个模式,允许代理通过DB连接名运行DQ作业。左侧面板是尚未链接到DQ代理的DB连接名列表。右侧面板是具有运行DQ作业权限的DB Connection名称列表。
双击DQ Connection名称从左到右移动。在图5中,名为“metastore”的DB Connection正在添加到DQ Agent中。点击“更新”按钮保存新的DB连接列表。
图5:将名为“metastore”的DB连接添加到DQ Agent
图6:如何将所有连接添加到选定的DQ代理
参数
|
描述
|
---|---|
是本地的
|
仅适用于Hadoop
|
是李维
|
弃用。不习惯。
|
基本路径
|
DQ的安装文件夹路径。DQ Agent中的所有其他路径都相对于此安装路径
这是设置的位置
OWL_BASE 在完全独立安装和其他安装设置,然后猫头鹰/ 文件夹中。例如,如果设置命令为出口OWL_BASE = / home / centos 然后基本路径在Agent配置中应设置为/home/centos/owl/ .
默认值:
/ opt /猫头鹰/
|
猫头鹰核心JAR
|
DQ Core jar文件的文件路径。默认的
<基本路径> /猫头鹰/ bin /
|
Owl核心日志
|
DQ Core日志所在的文件夹路径。DQ作业的日志存储在此文件夹中。默认值:
<基本路径> /猫头鹰/日志
|
Owl Web日志
|
DQ Web日志所在的文件夹路径。DQ Web App的日志存储在此文件夹中。默认值:
<基本路径> /猫头鹰/日志
|
猫头鹰脚本
|
DQ执行脚本的文件路径
owlcheck.sh .此脚本用于通过命令行运行DQ作业,而不使用代理。使用owlcheck.sh DQ Agent执行模型取代了DQ job。默认值:<基本路径> /猫头鹰/ bin / owlcheck
|
部署方式
|
Spark部署模式
客户端 或集群
|
默认的主
|
从Spark集群验证界面复制的Spark Master URL (
火花:/ /…… )
|
缺省队列
|
YARN的默认资源队列
|
动态Spark分配
|
弃用。不习惯。
|
Spark Conf键
|
弃用。不习惯。
|
Spark配置值
|
弃用。不习惯。
|
遗嘱执行人数目
|
使用此代理运行DQ扫描时为每个DQ作业分配的默认执行程序数
|
Executer内存(GB)
|
使用此代理运行DQ扫描时,为每个DQ作业分配的每个执行程序的默认RAM
|
芯数(个)
|
使用此代理运行DQ扫描时为每个DQ作业分配的每个执行程序的默认内核数
|
驱动内存(GB)
|
使用此代理运行DQ扫描时为每个DQ作业分配的默认驱动程序RAM
|
免费表格(附)
|
其他
spark-submit 使用此代理运行DQ扫描时要附加到每个DQ作业的参数
|
图2:在D中编辑DQ Agent模式
如果您有多个DQ代理,那么您可以将它们建立为HA组。这样做时,请确保两个DQ代理都建立了与它们相同的连接。
-
点击“代理组(H/A)”标签命名您的HA组,并将您想要参与的代理添加为组。注意:HA GROUPS将以循环方式执行作业。
-
注册代理后,与DB连接关联,用户现在可以通过资源管理器页面执行作业。
图7:通过DQ Web Explorer执行Ad Hoc作业
图1:在一个DQ Web应用程序中使用CDH、HDP和EMR的DQ代理的高级描述
图1提供了DQ中代理如何工作的高级描述。作业执行由DQ作业驱动,这些DQ作业被写入
agent_q
表内的DQ元数据Postgres存储(Owl-Postres
图1中的数据库)通过Web UI或REST API端点。可用的和运行的每个代理查询Owl-Postgres
表每5秒执行代理负责的DQ作业。例如,EMR代理Owl-Agent3
图1中只执行调度在EMR上运行的DQ作业。
当代理选择要执行的DQ作业时,代理将在代理节点本身本地或在集群上作为spark作业启动该作业(如果将代理设置为集群的边缘节点)。根据作业启动的位置,DQ作业的结果将写回DQ元数据存储(
Owl-Postgres
数据库)。然后,结果显示在DQ Web UI上,公开为REST API,并可用于直接SQL查询Owl-Postgres
数据库。
最后修改4月前