介绍Collibra目录的自动数据分类新万博移动客户端

介绍Collibra目录博客的自动数据分类新万博移动客户端

上个月,Collibra Catalog中引入了自动数据分类(Automatic Data Classification),这是一种新的机器学习(ML)功能。新万博移动客户端这个新特性通过自动将数据分类到我们的目录中,提高了数据管理员的工作效率。在Co新万博移动客户端llibra,我们相信机器学习算法为增强我们的产品和提高客户的生产力提供了巨大的潜力。在这篇博文中,我们将分享我们如何使用数据分类来实现这一点,以及我们如何考虑在未来构建我们的ML功能。

减少手工组织数据的时间

数据管理员角色的一个关键部分是确保数据质量。管理人员需要在一系列不同的物理数据源上对各种各样的数据集进行准确分类。从企业的角度来看,质量需要一致性。在分析来自不同系统和物理数据源的数据时,能够应用一致的业务术语(逻辑定义)是至关重要的。

尽管数据分类是数据管理员的一项重要职责,但它也可能是一项艰巨的任务。大多数大型企业都在积累不断增长的数据量,这些数据存储在复杂的系统组合中。对于任何负责对如此庞大而多样的数据集进行分类的人来说,这种情况意味着大量重复的手工工作。

自动数据分类是为了使分类过程更具可伸缩性而设计的。我们并没有试图自动化数据管理员的角色,而是让他们的功能更高效,并腾出时间来专注于更有价值的任务。帮助自动化数据分类是该价值主张的关键部分。虽然管理员将继续在数据分类中发挥关键作用,但我们的目标是使他们能够自动对许多更常见的数据元素进行分类,使他们能够专注于那些需要更专业分析的数据元素。

它是如何工作的

在摄取数据表之后,数据管理员可以导航到表或列资产页,并从More下拉菜单中运行分类。

一旦流程启动,样本数据就会被发送到Classification引擎进行分析。如果为某一列找到了类匹配,将返回该类以及与建议的匹配相关联的置信度。

然后,用户可以进入并批准或拒绝建议的数据类,这将改进ML模型未来的建议。

准确、可伸缩和可扩展

在设计我们的自动化数据分类引擎时,我们选择关注三个核心特征:准确性、可伸缩性和可扩展性。

与任何ML计划一样,我们的算法随着它们学会以更高的精度识别更多类别的数据而逐步改进。目前的服务经过训练,可以即时识别大约40类数据。这些信息包括各种各样的个人信息、物理地址详细信息、财务信息、电子通信详细信息、产品标识符以及时间和日期记录。

对于每一种数据类型,分类引擎都将几个因素(包括元数据、分析数据和样本数据本身)作为分类过程的一部分。每一个新数据集都提供了一个训练的机会,以帮助算法进一步提高其准确性。我们使用三个核心指标来衡量这种准确性——精度、召回率和所谓的F1分数(这是前两个的加权平均值)——并且很自豪地说,我们的分类引擎在训练数据上的总体F1分数达到了98%。

为了确保新服务是可伸缩的,我们优化了分类引擎的性能。它可以每秒自动分类多达100列的数据,并被设计为水平可扩展,利用弹性计算和存储资源池。狗万新闻c

最后,我们已经确保我们的分类引擎是完全可扩展的,这意味着Collibra Catalog用户可以配置平台来识别他们自己的数据类。新万博移动客户端这可能包括专有数据类型,例如用于识别员工、客户或账户的内部字母数字代码;或者它可以包括针对特定用例的数据,例如独特的产品或供应链信息。引擎本身很容易训练,我们很乐意分享我们的经验,并提供实际指导来支持这一过程。

未来用例

我们的ML算法的第一次迭代针对一个非常具体的用例-自动分类新摄入的数据。通过保持一个狭窄的初始焦点,我们已经训练我们的算法把一件事做得很好,接下来,我们将通过添加更多的用例来扩大我们的足迹。我们的产品路线图中已经包含了许多这样的改进。

其中一个关键步骤是将我们的分类引擎集成到Collibra Privacy & Risk中,这不仅可以自动识别个人身份信息(PII新万博移动客户端),还可以自动化相关政策应用于这些数据的方式。知道数据集包含与欧盟公民相关的PII意味着GDPR政策可以自动应用;CCPA政策适用于与加州居民有关的PII,等等。

除了扩大用例之外,我们还希望通过让算法更深入地了解数据本身来深化算法的智能。我们计划包括一个嵌入式数据本体——一个不同数据类如何相互关联的层次结构视图。作为一个简单的例子,一个算法可以知道它可以使用“全名”列来填充“名字”和“姓氏”,如果这些字段缺失的话。

我们需要你的投入

我们开发了我们的机器学习能力,以响应客户的需求,并一直在寻求进一步的反馈,以改进我们的产品。如果您希望有人向您介绍我们的新功能,或者已经开始使用这些功能,并希望提供您的反馈,请不要犹豫保持联系

相关资源狗万新闻c

查看所有资源狗万新闻c

更多像这样的故事

2022年9月8日-4最小值

为什么需要企业数据目录

阅读更多
箭头
2022年4月27日-4最小值

企业数据目录:从剪断绳索中学到的教训

阅读更多
箭头
2021年11月29日-3.最小值

与Collibra和Okera一起购买数据新万博移动客户端

阅读更多
箭头