AWS砖

我们感动!改善客户体验,Collibra数据质量用户指南已经搬到新万博移动客户端 新万博移动客户端Collibra文档中心 作为Collibra数据质量2新万博移动客户端022.11发行版的一部分。为了确保无缝过渡, dq-docs.新万博移动客户端collibra.com 将继续访问,但DQ用户指南现在维护只在文档中心。

开始

第一次使用香草火花代码设置连接属性并通过火花jdbc访问数据库表。最后整个代码示例可以复制粘贴。

模式输出,行数和运行时

|——EXCH:字符串(可以为空=真正的)
|——象征:字符串(可以为空=真正的)
|——TRADE_DATE:日期(可以为空=真正的)
|——开放:小数(9,3)(可以为空=真正的)
|——:小数(9,3)(可以为空=真正的)
|——:小数(9,3)(可以为空=真正的)
|——关闭:小数(9,3)(可以为空=真正的)
|——体积:整数(可以为空=真正的)
|——PART_DATE_STR:日期(可以为空=真正的)
行数:102年,817年
运行时:00:00:03

下一个配置并指向猫头鹰Metastore猫头鹰选项

这就要求你有猫头鹰库导入到你的笔记本或砖env。

下一个运行配置文件

+ - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - + - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +
||零位|清空|基数|is_mixed|mixed_ratio|Int||字符串|小数|布尔||日期|时间戳|
+ - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - + - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +
||0|0|19159年||0.0|0|0|0|102817年|0|0|0|0|
|象征|0|0|3137年||0.0|0|0|102817年|0|0|0|0|0|
||0|0|18845年||0.0|0|0|0|102817年|0|0|0|0|
|体积|0|0|25856年||0.0|102817年|0|0|0|0|0|0|0|
|TRADE_DATE|0|0|33||0.0|0|0|0|0|0|0|102817年|0|
|EXCH|0|0|2||0.0|0|0|102817年|0|0|0|0|0|
|关闭|0|0|15781年||0.0|0|0|0|102817年|0|0|0|0|
|PART_DATE_STR|0|0|33||0.0|0|0|0|0|0|0|102817年|0|
|开放|0|0|16013年||0.0|0|0|0|102817年|0|0|0|0|
+ - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - + - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +

下一个检查重复的

注意到有一个重复的发现。10/1/2018河畔纽交所记录存在两次。这不应该发生的一天股票数据应该只有1个记录每股票代码。伟大的DQ发现。

下一个扫描异常值

注意,KOD。w一般柯达相机公司市盈率不到2便士和跳跃至2.35美元。绝对一个异类。这是一个新闻事件命名为柯达硬币,谷歌它。
+ - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +
|关键||价值|预测|信心|
+ - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +
|TPGE|体积|23400.0|0.0|0|
|快艇- - - - - -C|体积|0.0|100.0|0|
|KODW|开放|2.35|0.015|1|

整个代码片段

/ / - - - GCP Postgres连接- - - / /
瓦尔url=" jdbc: postgresql: / / ${主机}:5432 / postgres ? currentSchema = owl_test”
varconnectionProps=java跑龙套属性()
connectionPropssetProperty(“司机”,“org.postgresql.Driver”)
connectionPropssetProperty(“用户”," $ {user} ")
connectionPropssetProperty(“密码”," ${通过}")
connectionPropssetProperty(“connectionUrl”,url)
/ / - - - - - -从GCP加载DataFrame Postgres——/ /
瓦尔jdbcDF2=火花jdbc(url,“owl_test.nyse”,connectionProps)
jdbcDF2printSchema
jdbcDF2缓存
jdbcDF2
/ / - - - Owl库进口- - - / /
进口com猫头鹰常见的选项_
进口com猫头鹰核心猫头鹰
进口com猫头鹰核心跑龙套OwlUtils
瓦尔选择=OwlOptions()
/ / - - - Owl Metastore——/ /
选择主机=年代$ {主机}
选择港口=年代“5432 / postgres ? currentSchema =公共”
选择pgUser=年代美元用户
选择pgPassword=年代美元通过
/ / - - - / / - - -运行选项
选择数据集=“nyse_notebook_pipeline”
选择runId=“2018-01-10”
选择datasetSafeOff=真正的
选择易受骗的人=真正的
选择易受骗的人下界=99年
选择易受骗的人包括=数组(“象征”,“EXCH”)
选择离群值=真正的
选择离群值lookback=6
选择离群值dateColumn=“TRADE_DATE”
选择离群值timeBin=OutlierOptTimeBin一天
选择离群值关键=数组(“象征”)
选择离群值measurementUnit=“体积= 100000000,高= 0.1,低= 0.1,= 0.1,= 0.1”
/ / - - -初始化猫头鹰——/ /
瓦尔currentDay=jdbcDF2在哪里(年代“TRADE_DATE = '$ {选择runId}’”)
瓦尔猫头鹰=OwlUtilsOwlContextWithHistory(dfCurrent=currentDay,
dfHist=jdbcDF2,选择=选择)
/ / - - -管道Cmds——/ /
猫头鹰注册(选择)
瓦尔配置文件=猫头鹰profileDF
瓦尔离群值=猫头鹰outliersDF
瓦尔受骗的人=猫头鹰dupesDF

需要的配置

  • 砖运行时:5.4(包括Apache火花2.4.3,Scala 2.11)
  • Python版本:3

必需的库

  • 猫头鹰jar文件例如:owl_core_trunk_jar_with_dependencies.jar__
  • JDBC驱动程序:org.springframework: spring jdbc: 4.3.16.RELEASE \
  • 特定于数据库的JDBC连接器的司机例# 1:mysql: mysql-connector-java: 8.0.17例2:org.postgresql: postgresql: jar: 42.2.8