2019年10月15日·4分钟读

引入Collibra自动数据分类目录新万博移动客户端

上个月看到自动数据分类的引入,新的机器学习(ML)动力特性Collibra目录。新万博移动客户端这个新功能增加的生产力数据管家通过自动分类的数据上到我们的目录中。在Co新万博移动客户端llibra,我们相信机器学习算法提供巨大的潜力来提高我们的产品,提高客户的生产力。在这篇文章中,我们分享我们如何做这个数据分类,以及我们如何思考未来构建我们的ML能力。

花更少的时间手动组织数据

数据管家的角色的一个关键部分是确保数据质量。管理者需要准确分类各种数据集在一系列不同的物理数据源。从企业的角度来看,质量需要的一致性。能够应用一致的业务术语(逻辑定义)是至关重要的在分析来自不同系统和物理数据源的数据。

尽管数据分类是一个至关重要的数据管家的责任,它也可以是一个艰苦的。大多数大型企业积累不断增加数量的数据,存储在一个复杂的混合系统。对于任何指控如此大的分类和不同的数据集,这个场景转化成很多重复的,手工工作。

自动数据分类是为了使分类过程更具有可伸缩性。我们没有试图自动化数据管理员的角色,而是使其功能更有效率和释放他们的时间专注于增值任务。帮助自动化数据分类是一个价值主张的关键部分。而管家将继续为一个关键的角色在数据分类中,我们的目标是使他们能够分类很多常见的自动数据元素,从而使他们专注于那些需要更多的专家分析。

它是如何工作的

摄入后数据表,数据管家可以导航到表或列资产分类页面和运行下拉。

一旦开始这个过程,样本数据被发送到分类引擎来进行分析。如果找到类比赛对于一个单独的列,该类将返回一个置信水平与建议匹配有关。

用户然后可以批准或拒绝建议的数据类,这将提高ML模式未来的建议。

准确、可伸缩、可扩展的

在设计我们的自动数据分类引擎我们选择把重点放在三个核心特征:准确性、可伸缩性和可扩展性。

与任何毫升倡议,我们的算法提高逐步学会识别更多的类时更精确的数据。当前服务是训练有素的开箱即用的大约40种类的数据。其中包括各种各样的个人信息,物理地址信息,财务信息,电子通信细节,产品标识符,以及时间和日期的记录。

这些数据类型分类引擎的考虑几个因素,包括元数据,分析数据和样本数据本身——作为分类过程的一部分。每一个新数据集的创建提供了一个机会培训,以帮助该算法进一步提高其准确性。我们测量精度使用三个核心指标——精度,回忆和一些被称为一个F1分数(这是前两个的加权平均),自豪地说,我们的分类引擎实现了F1的总分中训练数据的98%。

确保新服务是可伸缩的,我们优化分类引擎的性能。它可以自动分类到每秒100列的数据,设计了横向扩展,利用一个弹性的计算和存储资源池。狗万新闻c

最后,我们确保分类引擎是完全可扩展的,这意味着Collibra目录用户可以配置平台认识到他们自己的数据类。新万博移动客户端可能包括专有的数据类型,比如内部字母数字代码用于识别员工、客户或账户;或者它可能包括数据针对特定用例,如独特的产品或供应链的信息。发动机本身很容易训练,我们乐于分享我们的经验和提供实践指导来支持这一过程。

未来的用例

我们的第一次迭代ML算法是针对一个非常具体的用例,自动分类新摄取的数据。通过保持一个狭窄的初始焦点我们训练算法来做一件事很好,接下来,我们将扩大我们的足迹通过添加更多的用例。我们已经有了很多的改进包括在我们的产品路线图。

一个关键的步骤将会将我们的分类引擎集成到新万博移动客户端Collibra隐私&风险,这将有助于大大不仅通过自动识别个人身份信息(PII),但是自动化的相关政策也适用于这些数据。知道一个数据集包括PII有关欧盟公民意味着GDPR政策可能会自动应用;与CCPAPII政策适用于有关加州居民,等等。

除了扩大用例,我们也在寻求深化算法的情报给他们更多的洞察数据本身。我们计划包括嵌入式数据本体层次结构,不同的数据类之间的关系。作为一个简单的例子,一个算法可以知道它可以使用“全名”列填充“名字”和“姓”这些字段应该失踪。

我们希望您的输入

我们开发毫升能力以应对客户的需求,总是在寻找进一步的反馈来改善我们的产品。如果你想有人走你通过我们的新功能或已经开始使用他们,希望提供你的反馈,请不要犹豫取得联系。