什么是异常检测?有哪些关键的例子?

异常检测,也称为异常值分析,是识别数据集的异常模式、罕见事件、非典型行为或异常值的过程。这些异常与其他数据有很大不同。异常通常表示问题,如设备故障、技术故障、结构缺陷、银行欺诈、入侵企图或医疗并发症。

一些异常现象可能只是引起人们兴趣的不常见现象,例如天文学数据中的神秘射电暴和人口数据中的异常值。调查异常有助于解释上下文,消除可能的原因(如有必要),改进数据质量,并对数据集进行微调。

数据异常检测的用途

异常检测在生成业务洞察和维护核心操作方面发挥着关键作用。及时检测异常可以使您能够预防问题并抑制其对业务的累积影响。

数据异常检测有助于解决广泛的现实问题:

  • 及早发现财务欺诈:与客户或合作企业的金融交易需要安全处理。检测交易模式中的异常可以发现安全漏洞并防止潜在的欺诈。
  • 早期发现健康问题:在医疗保健领域,及时的异常检测有助于防止严重问题的发展。如果检测到病人的生命体征超出正常范围,就会发出健康警告,要求立即关注。除了帮助个体患者,异常检测还可以突出对公共卫生的关注,例如可能的流行病爆发。
  • 防止资源浪费狗万新闻c: Covid-19大流行显示了滥用政府资源的令人不安的情况。狗万新闻c这包括欺诈失业保险索赔和给死人的刺激支票的例子。异常检测可以帮助在这种情况下识别可疑活动并防止资源浪费。狗万新闻c
  • 管理需求激增:在Covid-19大流行期间,受困于长时间封锁的购物者开始在网上购买几种产品。当然,电子商务公司很难预测并满足需求的意外激增。认识到需求激增对于电子商务公司防止混乱和客户失望至关重要。他们可以利用异常检测提前识别关键趋势并做好准备。
  • 检测黑客和入侵企图: IT安全团队不断监控用户行为,以发现模式和检测不规则活动。异常检测加强了他们在对敏感信息进行任何潜在攻击之前识别入侵企图的尝试。
  • 分析模型精度更高:早期检测异常值和数据漂移有助于提高用于训练分析模型的数据质量。随着模型使用质量更好的数据,它们可以提供更精确的结果,并随着时间的推移提高准确性。
  • 最小化数据停机时间:自动检测数据漂移、异常值或模式和模式的变化,有助于持续向企业系统交付高质量的数据。通过在异常影响下游应用程序之前消除异常,可以最大限度地减少数据停机时间。
  • 改善电讯服务表现:电讯服务供应商拥有庞大的用户基础和庞大的网络流量,因此需要持续监察他们的表现。导致延迟或抖动的网络退化是一个持续的风险,他们必须迅速减轻这种风险。电信服务提供商依靠自动异常检测来实时检测和解决性能问题。
  • 增强的云服务性能:云服务提供商识别流量模式,分配资源并确保不间断服务。狗万新闻c异常检测使他们能够发现潜在的安全漏洞或服务中断。基于分析,他们可以评估所需的基础设施增强,以继续提供不间断的服务。
  • 卓越的客户体验:在线业务的任何停机时间都会影响客户体验。对服务故障、加载错误和延迟响应的异常检测支持分析使用失误的风险。在客户遇到停机时间或其他问题之前,更快的实时缓解至关重要。通过自动数据异常检测,在线业务可以持续监控系统,以预测和解决客户体验的挑战。

    异常告诉您,某些数据点与同一集中的其他数据点不匹配,但这并不总是坏事。它们揭示了不同寻常的故事,用隐藏的洞察力丰富了我们的视角。

    客户行为模式的改变也预示着潜在的机会。环境异常,如异常寒冷的夏季,可以是一个提前提供缓解的机会,也可以为未来发生的情况做好计划。如果一名员工在当前职位上的表现优于其他人,你可以利用她的才能承担更高的职责。神童通常是作为异类被发现的。

    重要的是及早发现异常现象并迅速采取行动。

    异常检测设置

    数据异常检测依赖于异常是罕见事件的假设,并且它们与正常行为有很大不同。检测过程需要一个正常行为的背景识别任何异常行为。时间序列数据为上下文提供了随时间变化的值序列。时间序列数据中的每个点都有一个时间戳和当时的度量值。此上下文为正常行为模式建立了基线,帮助识别不寻常的模式或异常值。

    企业数据异常检测有三种不同的设置:

    点异常

    个别异常与数据集的其他部分相差甚远。例如,以前从未发生过的大额银行提现就是点异常,是潜在的欺诈案件

    上下文的异常值

    在同一上下文中,与其他数据点有显著偏差的异常。请注意,一个数据集中的异常可能不是另一个数据集中的异常。

    例如,电力消耗的季节性波动并不是上下文异常。另一方面,在需求高峰季节之外突然出现雨伞需求,对电子商务公司来说是一种背景异常。它可以表明一种时尚趋势或价格故障。

    集体的离群值

    数据点的子集,是整个数据集的离群值。这个子集中的数据点既不是点异常也不是上下文异常值。考虑这样一种情况,一家公司的股价在很长一段时间内保持不变。对于大多数公司来说,股价通常随时都在波动,这种情况是一个集体异常值。

    表示正常行为的构造良好的模型设置上下文以识别异常值。现代系统使用预测ML算法来准确预测模式和检测异常。

    异常检测的挑战

    为正常行为建模以提供正确的上下文是异常检测中的最大挑战。您可能还会发现分离噪声是识别真正异常值的主要障碍。

    • 为正常行为建模:时间序列提供了检测异常的正常行为的基本背景。但是,如果没有交通模式或环境变化等大型复杂系统的适当背景,识别异常值是具有挑战性的。为了使异常检测在企业范围内工作,预测数据质量随着时间的推移,通过将原始数据分解为100X个更小的块来创建统计草图,以用于基线和基准数据集。用可接受的方差对正常行为建模有助于更准确地识别异常。
    • 噪声和糟糕的数据质量:在医疗保健用例中,异常值检测规则非常严格,即使很小的变化也会被识别为需要注意的对象。噪声和较差的数据质量会影响异常值与正常记录的区分,降低异常检测的有效性。
    • 流数据量:流数据量大,可能会影响处理速度。可扩展的,ml驱动的,预测数据质量可以实时检测数据漂移和异常值,提供早期预警。
    • 更深入地理解数据:有时,数据集包含极端值,这些值不是异常值或数据质量问题。理解这些值是一个挑战,因为时间序列上下文可能无法充分解释它们。数据情报能够以正确的方式理解和使用数据。连接数据、见解和算法可以揭示对数据的更深入理解,从而正确识别异常。

      对标异常检测

      在特定的环境下,异常检测具有挑战性,因为有大量的流数据和发现的紧迫性。

      最常见的异常检测方法包括监督、半监督和无监督。

      • 监督检测:您可以将此模型与完全标记的训练和测试数据集一起使用,包括标记的异常。支持向量机(SVM)和神经网络算法在监督检测方面表现良好,因为它们不需要标记数据或已知异常。当异常未知或尚未识别时,此模型不适用。
      • Semi-supervised检测:当你有完全标记的训练和测试数据集,但没有任何标记的异常时,半监督检测效果最好。系统学习正常行为并识别偏差或异常值。半监督异常检测有几种算法,包括单类支持向量机、高斯混合模型(GMM)和核密度估计。
      • 无监督检测:预测数据质量使用这个灵活的模型,用于有或没有任何标签、没有任何已识别异常的数据集。它基于特征对数据进行评分,不需要任何预定义的正常值。隔离森林、主成分分析(PCA)和K-means是无监督异常检测的一些最佳算法。

      通过预测数据质量,您可以利用自动化的、实时的、早期的异常检测来处理各种不同的业务案例。

      观看点播Collibra数据质量产品展示新万博移动客户端!本次网络研讨会将重点介绍如何通过持续监控数据移动来构建高质量的数据管道和数据产品。本文还重点介绍了在DataOps过程中的每个阶段自动化数据质量检查的重要性!

      相关资源狗万新闻c

      博客

      数据质量和数据治理:从哪里开始?

      博客

      什么是数据质量?为什么它很重要?

      分析报告

      为数据质量做一个商业案例

      查看所有资源狗万新闻c

      更多像这样的故事

      2022年12月22日-3.最小值

      可观察性:数据质量的下一个演变

      阅读更多
      箭头
      2022年12月13日-5最小值

      升级:雪花+ Collibra:扩大平台治理范围…新万博移动客户端…

      阅读更多
      箭头
      2022年12月5日4最小值

      成功实现数据质量和可观察性解决方案

      阅读更多
      箭头