AWS砖
我们感动!改善客户体验,Collibra数据质量用户指南已经搬到新万博移动客户端
新万博移动客户端Collibra文档中心
作为Collibra数据质量2新万博移动客户端022.11发行版的一部分。为了确保无缝过渡,
dq-docs.新万博移动客户端collibra.com
将继续访问,但DQ用户指南现在维护只在文档中心。
第一次使用香草火花代码设置连接属性并通过火花jdbc访问数据库表。最后整个代码示例可以复制粘贴。
根
|——EXCH:字符串(可以为空=真正的)
|——象征:字符串(可以为空=真正的)
|——TRADE_DATE:日期(可以为空=真正的)
|——开放:小数(9,3)(可以为空=真正的)
|——高:小数(9,3)(可以为空=真正的)
|——低:小数(9,3)(可以为空=真正的)
|——关闭:小数(9,3)(可以为空=真正的)
|——体积:整数(可以为空=真正的)
|——PART_DATE_STR:日期(可以为空=真正的)
行数:102年,817年
运行时:00:00:03
这就要求你有猫头鹰库导入到你的笔记本或砖env。
+ - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - + - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +
|列|零位|清空|基数|is_mixed|mixed_ratio|Int|长|字符串|小数|布尔|双|日期|时间戳|
+ - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - + - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +
|高|0|0|19159年|假|0.0|0|0|0|102817年|0|0|0|0|
|象征|0|0|3137年|假|0.0|0|0|102817年|0|0|0|0|0|
|低|0|0|18845年|假|0.0|0|0|0|102817年|0|0|0|0|
|体积|0|0|25856年|假|0.0|102817年|0|0|0|0|0|0|0|
|TRADE_DATE|0|0|33|假|0.0|0|0|0|0|0|0|102817年|0|
|EXCH|0|0|2|假|0.0|0|0|102817年|0|0|0|0|0|
|关闭|0|0|15781年|假|0.0|0|0|0|102817年|0|0|0|0|
|PART_DATE_STR|0|0|33|假|0.0|0|0|0|0|0|0|102817年|0|
|开放|0|0|16013年|假|0.0|0|0|0|102817年|0|0|0|0|
+ - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - + - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +
注意到有一个重复的发现。10/1/2018河畔纽交所记录存在两次。这不应该发生的一天股票数据应该只有1个记录每股票代码。伟大的DQ发现。
注意,KOD。w一般柯达相机公司市盈率不到2便士和跳跃至2.35美元。绝对一个异类。这是一个新闻事件命名为柯达硬币,谷歌它。
+ - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +
|关键|列|价值|预测|信心|
+ - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +
|TPG。E|体积|23400.0|0.0|0|
|快艇- - - - - -C|体积|0.0|100.0|0|
|KOD。W|开放|2.35|0.015|1|
/ / - - - GCP Postgres连接- - - / /
瓦尔url=" jdbc: postgresql: / / ${主机}:5432 / postgres ? currentSchema = owl_test”
varconnectionProps=新java。跑龙套。属性()
connectionProps。setProperty(“司机”,“org.postgresql.Driver”)
connectionProps。setProperty(“用户”," $ {user} ")
connectionProps。setProperty(“密码”," ${通过}")
connectionProps。setProperty(“connectionUrl”,url)
/ / - - - - - -从GCP加载DataFrame Postgres——/ /
瓦尔jdbcDF2=火花。读。jdbc(url,“owl_test.nyse”,connectionProps)
jdbcDF2。printSchema
jdbcDF2。缓存
jdbcDF2。数
/ / - - - Owl库进口- - - / /
进口com。猫头鹰。常见的。选项。_
进口com。猫头鹰。核心。猫头鹰
进口com。猫头鹰。核心。跑龙套。OwlUtils
瓦尔选择=新OwlOptions()
/ / - - - Owl Metastore——/ /
选择。主机=年代”$ {主机}”
选择。港口=年代“5432 / postgres ? currentSchema =公共”
选择。pgUser=年代”美元用户”
选择。pgPassword=年代”美元通过”
/ / - - - / / - - -运行选项
选择。数据集=“nyse_notebook_pipeline”
选择。runId=“2018-01-10”
选择。datasetSafeOff=真正的
选择。易受骗的人。在=真正的
选择。易受骗的人。下界=99年
选择。易受骗的人。包括=数组(“象征”,“EXCH”)
选择。离群值。在=真正的
选择。离群值。lookback=6
选择。离群值。dateColumn=“TRADE_DATE”
选择。离群值。timeBin=OutlierOpt。TimeBin。一天
选择。离群值。关键=数组(“象征”)
选择。离群值。measurementUnit=“体积= 100000000,高= 0.1,低= 0.1,= 0.1,= 0.1”
/ / - - -初始化猫头鹰——/ /
瓦尔currentDay=jdbcDF2。在哪里(年代“TRADE_DATE = '$ {选择。runId}’”)
瓦尔猫头鹰=OwlUtils。OwlContextWithHistory(dfCurrent=currentDay,
dfHist=jdbcDF2,选择=选择)
/ / - - -管道Cmds——/ /
猫头鹰。注册(选择)
瓦尔配置文件=猫头鹰。profileDF
瓦尔离群值=猫头鹰。outliersDF
瓦尔受骗的人=猫头鹰。dupesDF
-
砖运行时:5.4(包括Apache火花2.4.3,Scala 2.11)
-
Python版本:3
-
猫头鹰jar文件例如:owl_core_trunk_jar_with_dependencies.jar__
-
JDBC驱动程序:org.springframework: spring jdbc: 4.3.16.RELEASE \
-
特定于数据库的JDBC连接器的司机例# 1:mysql: mysql-connector-java: 8.0.17例2:org.postgresql: postgresql: jar: 42.2.8
最后修改4 d前