时间数据异常检测:调查
IDEA

  • 可以在统计界查找时间序列的离群点检测的方法,应用于计算机技术
  • 应用场景

    摘要

    在统计界,时间序列数据的离群点检测已经被研究了几十年。 最近,随着硬件和软件技术的进步,有大量的工作要做 从计算机科学界的计算角度进行时间异常检测。 特别是,硬件技术的进步使各种形式的临时设备得以提供 口头数据收集机制和软件技术的进步使各种数据管理机制得以建立。 这促进了不同类型数据集的增长,如由多种应用程序生成的数据流、时空数据、分布式流、时间网络和时间序列数据。 有必要对这项工作进行有组织的详细研究在离群点检测领域,对于这些时间数据集。 在这项调查中,我们提供了一个全面和结构化的概述,大量有趣的离群点定义的,不同形式的临时数据、新技术和应用场景,其中特定的定义和技术已被广泛应用。
    关键词 时间离群点检测、时间序列数据、数据流、分布式数据流、时间网络、时空离群点、时间离群点检测的应用、网络离群点

    不同的应用场景

    金融: 股票市场的突然变化,或特定情况下的不寻常模式,诸如2010年5月6日的Flash崩溃之类的窗口是一个异常事件,需要尽早发现该事件,以避免和防止由于交易系统的脆弱性而导致市场的广泛破坏。
    系统诊断:实际上,有关系统状态的大量数据是离散的。 这可能对应于UNIX系统调用,飞机系统状态,机械系统或基于主机的入侵检测系统。 最后一种情况特别常见,它本身就是重要的研究领域。 异常提供有关此类系统中潜在威胁和故障事件的信息。
    生物学数据:虽然生物学数据本质上不是临时性的,但单个氨基酸的位置类似于时间序列中的位置。 因此,时间方法可以直接用于生物学数据。
    用户操作序列:日常生活中存在各种各样的序列,这些序列是由不同域中的用户操作创建的。 这些包括Web浏览模式,客户交易或RFID序列。 异常提供了一种出于特定原因而导致用户行为异常的想法(例如,尝试破解密码将包含一系列登录和密码操作)。
    应用中的这种广泛多样性还反映在与异常值检测相关的多种形式和数据类型中。 所有时间离群值分析的一个共同特征是,时间连续性在所有这些表述中都起着关键作用,并且使用数据中的异常变化,序列或时间模式来对离群值进行建模。 从这个意义上讲,时间构成了上下文变量,所有分析都针对该上下文变量进行。
    image.png

2.1.1 Direct Detection of Outlier Time Series 离群点序列的直接检测

最受欢迎的序列相似性度量是基于简单匹配计数的序列相似性[20],以及最长公共子序列(LCS)的标准化长度[21],[22],
[23],[24]。 前者的优势是其更高的计算效率,而后者可以调整到包含噪声的序列中的片段,但由于其动态编程方法而更加昂贵。