DQ Cloud的Edge组件的安装详细信息。
我们感动!为了改善客户体验,Collibra数据质量用户指南已移至新万博移动客户端 新万博移动客户端Collibra文档中心 作为Collibra数据质量2新万博移动客户端022.11版本的一部分。为了确保无缝过渡, dq-docs.新万博移动客户端collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心维护。
DQ Cloud处于公测阶段,这意味着它是一个即将推出的功能,在完全准备好全面可用之前,所有客户都可以使用它,这样就可以提前对其进行测试和评估。请联系Collibra的代表或新万博移动客户端 点击这里 了解更多。

需求

资源
笔记
供应的
新万博移动客户端Collibra DQ
版本2022.02+边缘模式启用
新万博移动客户端
新万博移动客户端Collibra Edge网站
2022.02以上的版本
客户
Postgres
版本11 +
客户

包括未来提供的计算池和下推,这是悬而未决的…

先决条件

虚拟机

这就是你 边缘 已安装站点。
  • RedHat 8或Centos 8
  • SSH访问
  • 500gb的免费存储空间
  • 64gb内存
  • 16芯
  • 443端口的出(出)网络访问
  • 通过网络访问步骤2中安装的Postgres
对于超过100行× 100列的中大型工作负载,我们建议您的虚拟机至少具有32核、128 GB内存和500 GB可用存储。
可以找到边缘安装要求 在这里

Postgres

这是存储DQ Job结果的地方。
  • 版本11或更高版本
  • 至少100 GB的可用存储空间
  • 至少4核
  • 对安装Edge的VM的网络访问
  • 对目标数据库具有所有权的用户

1.获取Secure Collibr新万博移动客户端a DQ Web URL

这是由Collibra提供的。新万博移动客户端除了URL之外,还将提供凭据来访问您的实例。
此产品处于公测阶段,仅供选定的Collibra客户使用。新万博移动客户端请联系Collibra代表了解更多新万博移动客户端信息。

2.安装Postgres

这是由客户提供的。有几种安装Postgres的方法。您应该遵循现有的公司流程来配置Postgres实例(RDS、Azure SQL、Cloud SQL或使用包管理器的标准安装)。请确保是11+版本。
记住您的Postgres IP和登录凭据。这在部署Edge站点时是必需的。

3.安装边

请参阅Edge文档了解 系统需求
在管理控制台中导航到Edge站点管理面板
添加边缘站点,并提供名称和描述
使用Actions下拉菜单,在本地下载Edge安装程序包
将Edge安装程序包上传到满足上述Edge系统要求的VM。下面是一个scp命令示例,但您可以通过几种方式来执行此操作。
scp -i ~/Downloads/vm-key。pem ~ /下载/ <安装程序> . tgz(电子邮件保护)< host-or-ip >: / home / user / <安装程序> . tgz
上传安装包后SSH到虚拟机。解压缩。tgz文件
Tar -xvf .tgz
安装必备的Edge软件包。
yum install -y container-selinux selinux-policy-base
Sudo yum install -y https://rpm.rancher.io/k3s/stable/common/centos/7/noarch/k3s-selinux-0.2-1.el7_8.noarch.rpm
执行命令firewall-cmd——zone=trusted——add-interface=lo——permanent
执行命令firewall-cmd——zone=trusted——add-interface=cni0——permanent
Sudo firewall-cmd—reload
确认你有正确的Collibra DQ版本指针。新万博移动客户端-186 - 2022.02从您的Cloud实例。
记住上一步中的Postgres IP和凭据。
按照正确的参数安装Edge / DQ
Sudo /home/centos/install-master.sh——storage-path /var/edge properties-r注册表。—set collib新万博移动客户端ra_edge.collibra.dq.enabled=true,collibra_edge.collibra.dq.targetRevision=2022.02-186,collibra_edge.collibra.dq.sparkVersion=3.2.0,collibra_edge.collibra.dq.metastoreUrl=jdbc:postgresql://:5432/postgres,collibra_edge.collibra.dq.metastoreUser=,collibra_edge.collibra.dq.metastorePass=
下面的代码片段与上面的代码块相同。
粗体部分是您要编辑的区域
sudo /home/<目录>/install-master.sh——存储路径/var/edge-r注册表。——set colli新万博移动客户端bra_edge.collibra.dq.enabled=true,collibra_edge.collibra.dq.targetRevision=2022.02<版本>c新万博移动客户端ollibra_edge.collibra.dq.sparkVersion = 3.2.0 collibra_edge.collibra.dq.metastoreUrl = jdbc: postgresql: / /< postgres-ip >: 5432 / postgr新万博移动客户端es collibra_edge.collibra.dq.metastoreUser =< postgres-user >c新万博移动客户端ollibra_edge.collibra.dq.metastorePass =< postgres-password >
检查所有进程是否正在运行/完成
Sudo /usr/local/bin/kubectl获取pod——所有命名空间
成功安装后,您的Edge站点将显示为“健康”
如果在这个过程中有错误/拼写错误,卸载Edge
Sudo /usr/local/bin/uninstall-edge.sh——force
可以使用此命令卸载边缘站点。禁止通过界面删除边缘站点。
如果执行卸载,请重新安装必备组件
Sudo yum localinstall——skip-broken -y https://rpm.rancher.io/k3s/stable/common/centos/7/noarch/k3s-selinux-0.2-1.el7_8.noarch.rpm
您不应该使用UI删除Edge,以避免孤立的记录。

4.配置座席

导航到管理控制台中Remote Agent面板
完成Edge安装后,您将发现每个Edge站点都有一个可用的代理。单击铅笔图标配置代理。
将默认部署模式更改为Cluster,将默认主模式更改为k8,并为资源分配输入默认值。还添加自由格式的附加Spark conf,如下所示。
使用下面代码块中的spark conf。
参看spark.kubernetes.executor.limit.cores = 1, spark.kubernetes.driver.limit.cores = 1
DQ作业(Spark)计算将在Edge K3s上本地进行。增加虚拟机的大小以垂直扩展更多的资源(例如:狗万新闻c32核,RAM等)。这是beta版的首选选项。如果客户选择该路径并使用他们的Dataproc或EMR集群,则支持Hadoop计算。
注意创建的代理名称。在下面的步骤中,您将创建一个连接,并选择(链接)代理到您的连接。
不要从UI中删除Agent,以免产生孤立的记录。

5.设置工作限制

在作业限制设置中将最大内核数设置为1。
参考这个 链接 用于配置作业限制。

6.添加连接

这与添加找到的连接的过程相同 在这里 但有一点不同。您将在建立连接时将连接映射到代理。这与在自托管应用程序中映射连接和代理不同。
选项选择目标代理目标代理下拉列表。这个下拉列表将填充现有的代理。在这里,您将从上一步中选择代理名称。
之后,您不需要将连接分配给代理。它将被自动映射。
要将连接映射到另一个代理,需要重新保存连接并从下拉列表中选择另一个代理。

7.运行DQ作业

运行DQ Job来验证安装。使用资源管理器加载一个表,并像往常一样检查Jobs页面以查看状态。
如果DQ作业不成功,请检查代理设置和系统先决条件

笔记

边缘能力资源需求:如果资源不足,您的能力将无法正常执行。狗万新闻c
安装程序:请注意,下载新的安装程序将使以前的安装程序无效。
卷:/var/lib/rancher/k3s路径必须有500gb的空闲存储空间。
Root访问:需要Root访问,但未来的修订将遵循最低权限用户访问策略。
私有测试版旨在让客户1)完成安装2)确认DQ作业可以成功运行3)验证他们的安全需求,即没有敏感数据存储在他们的托管之外。

有用的命令

#让所有的pod运行起来
Sudo /usr/local/bin/kubectl获取pod——所有命名空间
获取shell对pod的访问权限
执行命令/usr/local/bin/kubectl -it -n collli新万博移动客户端b -edge——bash
获取shell对pod的访问权限
执行命令/usr/local/bin/kubectl -it collib新万博移动客户端ra-edge-controller- -n collibra-edge——sh
检查数据库的网络连接
旋度telnet: / / < rds-host >: <端口>
#删除作业
Sudo /usr/local/bin/kubectl删除pod -n collib新万博移动客户端ra-edge

常见问题解答

需要什么样的网络接入?
  • Edge Site和Postgres需要相互通信。
  • 此外,日志记录和心跳需要对多个服务进行出站访问。请参考Edge文档了解所使用的特定服务。
用户如何检查安装?
  • 时间:5分钟左右完成安装;如果没有,可能就有问题了。
  • 检查豆荚
  • Sudo /usr/local/bin/kubectl获取pod——所有命名空间
是否有办法获得更多的检查/更多的日志?
  • /usr/local/bin kubectl
如何验证安装是否成功?
  • 在Collibr新万博移动客户端a DQ实例中,导航到管理控制台中边缘站点管理面板,并确认健康状态
  • 支持可以通过Datadog确认,边缘站点会发送心跳
如何在Datdog中找到我的Edge站点?
  • 将边缘站点ID发送给支持以检查运行状况状态。
客户可以访问Datadog吗?
  • 只有Col新万博移动客户端libra可以访问Datadog日志记录。
我所有的Collibr新万博移动客户端a DQ和其他功能可以在同一个Edge站点上运行吗?
  • 没有技术原因阻止其他功能和Collibra DQ在同一Edge站点上运行。新万博移动客户端
  • 测试版的指导方针是将DQ Edge功能与DGC Edge功能分开,并简单地使用两个Edge站点。
Collibra DQ Cloud在特性或功能方面有什么限制吗新万博移动客户端?
  • 虽然支持远程文件,但由于安全限制,不支持本地文件和上传文件
  • 具体的驱动程序在测试版中不可用,但最常见的数据源是可用的。
与独立的、自托管的应用程序相比,使用Edge安装有什么好处?
  • 其主要优点是可管理的升级、维护和降低完全自托管的组件集的所有权成本。
  • 此外,这种设计允许客户利用容器和云技术,而无需深入的技术技能要求。
  • 开发此安装模式的目的是不损害任何安全需求,并让客户完全保管其数据。
  • 最后,这与Collibra体系结构标准保持一致,新万博移动客户端因此支持和服务团队将从规范化的部署模型中受益。特别是在安装、配置和故障排除方面。