支持连接

支持数据源连接类型列表
搬家新万博移动客户端提高客户经验Collibra数据质量用户指南已移到 新万博移动客户端Collibra文献中心 新万博移动客户端Collibra数据质量2022.11发布保证无缝过渡 新万博移动客户端dq-docs.collibra.com DQ用户指南目前完全保留在文档中心
访问旧支持连接页 参考2022.03 .

制作

下表驱动程序认证使用

连接-当前支持

连接
经认证
测试
包装
可选打包
推倒
估计作业
滤镜
分析数据
调度程序
spark代理
Yern代理
并行JDBC
会话状态
Kerberos密码
Kerberos密码管理器
Kerberos键盘
克尔贝罗斯TGT
单机(非livy)
雅典那
大查询
databricksJDBC
DB2
卓美欧
蜂巢
印巴拉
MSSQL
MySQL
acle语言
Postgres
素数
重置
雪花
Sybase系统
泰拉塔

远程连接-当前支持

连接
经认证
测试
包装
可选打包
推倒
估计作业
滤镜
分析数据
spark代理
Yern代理
Azure数据湖
Google云存储
HDFS
S3

下评价

下表显示正在评价的驱动程序(尚未认证生产用法)。连接目前不符合升级支持服务

连接-技术预览

连接
经认证
测试
包装
可选打包
推倒
估计作业
滤镜
分析数据
调度程序
spark代理
Yern代理
并行JDBC
会话状态
克尔贝罗斯州
Kerberos密码管理器
Kerberos键盘
克尔贝罗斯TGT
单机(非livy)
卡珊德拉
mongoDB
SAP花
索尔

流-技术预览

连接
经认证
测试
包装
可选打包
推倒
估计作业
滤镜
分析数据
调度程序
spark代理
Yern代理
并行JDBC
会话状态
Kerberos密码
Kerberos密码管理器
克尔贝罗斯TGT
CRDB元存储器
单机(非livy)
卡夫卡

文件类

文件类型
支持
CSV(和所有定界器)
剖面板
AVRO系统
JSON系统
DELTA系统

约束

验证
  • 需要KerberosTGT的DQ作业尚未支持spark单机或局部部署
    • 推荐通过Yern或K8s提交作业

文件约束

文件大小
  • 文件浏览器支持250多列,除非你已启动Livy
  • 大于5gb文件不支持文件探索器,除非你已启动Livy
  • 小文件大小允许跳过扫描并高效处理
  • 高级特征如重放、调度和历史回溯需要文件路径文件夹中日期签名
S3
  • 请确保S3连接名中不留空格
  • 确定连接时请记住选择 save证书复选框
  • 求指针根线桶子文件夹
本地文件
  • 本地文件只能使用NO_AGENT默认值运行
  • 快速测试小文件演示目的
  • 本地文件扫描并不打算大规模使用
李维
  • 华府 李维 仅支持K8s环境

spark引擎支持

  • MapRE和MapRspark引擎不支持运行CDQ作业

数据布列克

请参考此 获取更多细节 数据键支持 华府
唯一支持数据bricks提交选项使用 笔记本 启动作业(scala和Pyspark选项)面向管道开发商和了解Databricks和笔记本的用户窗体因子最理想地将数据质量嵌入SparkETL现有数据流企业用户仍可获取结果消费配置非面向企业用户实现Databricks用户使用Databricks集群或JDBC连接运行CDQ作业有三种方式开工记事本用户可直接开笔记本、上传CDQ罐并运行CDQ数据库作业完整级数解释见下页CDQ支持生产流
二叉spark-Submit
databricks集群有两种运行spark提交作业方式第一种方法使用DatabricksUI运行CDQspark提交作业,第二种方法使用Databricks休息API测试两种方法时使用数据库的不同集群版(见下表)。下方为全文档演示这些路径 新万博移动客户端https://dq-docs.collibra.com/apis-1/notebook/cdq-+-databricks/dq-databricks-submit \
请注意,这些例子只是展示如何实现DQspark提交Databricks集群这些路径不对支持制作DQ团队不对支持错误覆盖或专业服务或客户问题\
3级JDBC
CDQ用户可以在CDQUI中创建JDBC连接并连接到Databricks数据库定时2022.05发布
三角湖和JDBC连接已被验证Spark3.01CDQ包、Databricks7.3LTS和SparkJDBC41jar预览可用 。目前没有其它组合认证
spark提交使用databrickssparkmasterurl不支持
CDQ制作支持Databricks