论文异常值检测_学术参考网

论文异常值检测

离群点，是一个数据对象，它显著不同于其他数据对象，与其他数据分布有较为显著的不同。有时也称非离群点为“正常数据”，离群点为“异常数据”。

离群点跟噪声数据不一样，噪声是被观测变量的随机误差或方差。一般而言，噪声在数据分析（包括离群点分析）中不是令人感兴趣的，需要在数据预处理中剔除的，减少对后续模型预估的影响，增加精度。

离群点检测是有意义的，因为怀疑产生它们的分布不同于产生其他数据的分布。因此，在离群点检测时，重要的是搞清楚是哪种外力产生的离群点。

常见的异常成因:

通常，在其余数据上做各种假设，并且证明检测到的离群点显著违反了这些假设。如统计学中的假设检验，基于小概率原理，对原假设进行判断。一般检测离群点，是人工进行筛选，剔除不可信的数据，例如对于房屋数据，面积上万，卧室数量过百等情况。而在面对大量的数据时，人工方法耗时耗力，因此，才有如下的方法进行离群点检测。

统计学方法是基于模型的方法，即为数据创建一个模型，并且根据对象拟合模型的情况来评估它们。大部分用于离群点检测的统计学方法都是构建一个概率分布模型，并考虑对象有多大可能符合该模型。

离群点的概率定义：离群点是一个对象，关于数据的概率分布模型，它具有低概率。这种情况的前提是必须知道数据集服从什么分布，如果估计错误就造成了重尾分布。

a. 参数法：

当数据服从正太分布的假设时在正态分布的假定下，u±3σ区域包含99.7%的数据，u±2σ包含95.4%的数据，u±1σ包含68.3%的数据。其区域外的数据视为离群点。

当数据是非正态分布时，可以使用切比雪夫不等式，它对任何分布形状的数据都适用。根据切比雪夫不等式，至少有(1-1/k 2 )的数据落在±k个标准差之内。所以，有以下结论：

计算得到：通过绘制箱线图可以直观地找到离群点，或者通过计算四分位数极差（IQR）定义为Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何对象都视为离群点，因为Q1-1.5IQR和Q3+1.5IQR之间的区域包含了99.3%的对象。

涉及两个或多个属性或变量的数据称为多元数据。核心思想是把多元离群点检测任务转换成一元离群点检测问题。

- 卡方统计量的多元离群点检测：正态分布的假定下，卡方统计量也可以用来捕获多元离群点，对象，卡方统计量是：，是在第i维上的值，是所有对象在第i维上的均值，而n是维度。如果对象的卡方统计量很大，则该对象是离群点。

b. 非参数法：

构造直方图为了构造一个好的直方图，用户必须指定直方图的类型和其他参数（箱数、等宽or等深）。最简单的方法是，如果该对象落入直方图的一个箱中，则该对象被看做正常的，否则被认为是离群点。也可以使用直方图赋予每个对象一个离群点得分，比如对象的离群点得分为该对象落入的箱的容积的倒数。但这个方法很难选择一个较好的直方图参数。

注意：传统的观点都认为孤立点是一个单独的点,然而很多的现实情况是异常事件具有一定的时间和空间的局部性,这种局部性会产生一个小的簇.这时候离群点（孤立点）实际上是一个小簇（图下图的C1和C3）。

一个对象是异常的，如果它远离大部分点。这种方法比统计学方法更一般、更容易使用，因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。不依赖统计检验，将基于邻近度的离群点看作是那些没有“足够多“邻居的对象。这里的邻居是用邻近度（距离）来定义的。最常用的距离是绝对距离（曼哈顿）和欧氏距离等等。

一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小，则少量的邻近离群点可能导致离群点较少；如果K太大，则点数少于k的簇中所有的对象可能都成了离群点，导致离群点过多。为了使该方案对于k的选取更具有鲁棒性，可以使用k个最近邻的平均距离。

从基于密度的观点来说，离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关，因为密度通常用邻近度定义。

定义密度一种常用的定义密度的方法是，定义密度为到k个最近邻的平均距离的倒数。如果该距离小，则密度高，反之亦然。

另一种密度定义是使用DBSCAN聚类算法使用的密度定义，即一个对象周围的密度等于该对象指定距离d内对象的个数。需要小心的选择d，如果d太小，则许多正常点可能具有低密度，从而离群点较多。如果d太大，则许多离群点可能具有与正常点类似的密度（和离群点得分）无法区分。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。特殊地，当数据包含不同密度的区域时，它们不能正确的识别离群点。

定义相对密度为了正确的识别这种数据集中的离群点，我们需要与对象邻域相关的密度概念，也就是定义相对密度。常见的有两种方法：（1）使用基于SNN密度的聚类算法使用的方法；（2）用点x的密度与它的最近邻y的平均密度之比作为相对密度。使用相对密度的离群点检测（局部离群点要素LOF技术）:

一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇。这个方法可以和其他任何聚类技术一起使用，但是需要最小簇大小和小簇与其他簇之间距离的阈值。这种方案对簇个数的选择高度敏感。使用这个方案很难将离群点得分附加到对象上。

一种更系统的方法，首先聚类所有的点，对某个待测点评估它属于某一簇的程度。（基于原型的聚类可用离中心点的距离来评估，对具有目标函数（例如kmeans法时的簇的误差平方和）的聚类技术，该得分反映删除对象后目标函数的改进），如果删去此点能显著地改善此项目标函数，则可以将该点定位为孤立点。

基于聚类的离群点：一个对象是基于聚类的离群点，如果该对象不强属于任何簇。离群点对初始聚类的影响：如果通过聚类检测离群点，则由于离群点影响聚类，存在一个问题：结构是否有效。为了处理该问题，可以使用如下方法：

对象是否被认为是离群点可能依赖于簇的个数（如k很大时的噪声簇）。该问题也没有简单的答案。一种策略是对于不同的簇个数重复该分析。另一种方法是找出大量小簇，其想法是（1）较小的簇倾向于更加凝聚，（2）如果存在大量小簇时一个对象是离群点，则它多半是一个真正的离群点。不利的一面是一组离群点可能形成小簇而逃避检测。

根据已有训练集检测新样本是否异常

异常检测根据原始数据集的不同可分为两类： novelty detection: 训练集中没有异常样本 outlier detection: 训练集中有异常样本

异常样本：数量少，比较分散

novelty detection和outlier detection的区别：

Sklearn异常检测模型一览

5.1 奇异点检测（Novelty Detection）奇异点检测，就是判断待测样本到底是不是在原来数据的概率分布内。概率学上认为，所有的数据都有它的隐藏的分布模式，这种分布模式可以由概率模型来具象化。

5.1 离群点检测（Outlier Detection）不同与奇异点检测是，现在我们没有一个干净的训练集（训练集中也有噪声样本）。下面介绍的三种离群点检测算法其实也都可以用于奇异点检测。

如果我们认为，可达密度小的目标样本点就是异常点，这样未尝不可。但是，LOF算法更进一步。

LOF可以用来判断经纬度的异常。

使用python进行异常值(outlier)检测实战:KMeans + PCA + IsolationForest + SVM + EllipticEnvelope

文章引用：数据挖掘：数据清洗——异常值处理

大数据科学家需要掌握的几种异常值检测方法

引言

异常值检测与告警一直是工业界非常关注的问题，自动准确地检测出系统的异常值，不仅可以节约大量的人力物力，还能尽早发现系统的异常情况，挽回不必要的损失。个推也非常重视大数据中的异常值检测，例如在运维部门的流量管理业务中，个推很早便展开了对异常值检测的实践，也因此积累了较为丰富的经验。本文将从以下几个方面介绍异常值检测。

1、异常值检测研究背景

2、异常值检测方法原理

3、异常值检测应用实践

异常值检测研究背景

异常值，故名思议就是不同于正常值的值。在数学上，可以用离群点来表述，这样便可以将异常值检测问题转化为数学问题来求解。

异常值检测在很多场景都有广泛的应用，比如：

1、流量监测

互联网上某些服务器的访问量，可能具有周期性或趋势性：一般情况下都是相对平稳的，但是当受到某些黑客攻击后，其访问量可能发生显著的变化，及早发现这些异常变化对企业而言有着很好的预防告警作用。

2、金融风控

正常账户中，用户的转账行为一般属于低频事件，但在某些金融诈骗案中，一些嫌犯的账户就可能会出现高频的转账行为，异常检测系统如果能发现这些异常行为，及时采取相关措施，则会规避不少损失。

3、机器故障检测

一个运行中的流水线，可能会装有不同的传感器用来监测运行中的机器，这些传感器数据就反应了机器运行的状态，这些实时的监测数据具有数据量大、维度广的特点，用人工盯着看的话成本会非常高，高效的自动异常检测算法将能很好地解决这一问题。

异常值检测方法原理

本文主要将异常值检测方法分为两大类：一类是基于统计的异常值检测，另一类是基于模型的异常值检测。

基于统计的方法

基于模型的方法

1、基于统计的异常值检测方法

常见的基于统计的异常值检测方法有以下2种，一种是基于3σ法则，一种是基于箱体图。

3σ法则

箱体图

3σ法则是指在样本服从正态分布时，一般可认为小于μ-3σ或者大于μ+3σ的样本值为异常样本，其中μ为样本均值，σ为样本标准差。在实际使用中，我们虽然不知道样本的真实分布，但只要真实分布与正太分布相差不是太大，该经验法则在大部分情况下便是适用的。

箱体图也是一种比较常见的异常值检测方法，一般取所有样本的25%分位点Q1和75%分位点Q3，两者之间的距离为箱体的长度IQR，可认为小于Q1-1.5IQR或者大于Q3+1.5IQR的样本值为异常样本。

基于统计的异常检测往往具有计算简单、有坚实的统计学基础等特点，但缺点也非常明显，例如需要大量的样本数据进行统计，难以对高维样本数据进行异常值检测等。

2、基于模型的异常值检测

通常可将异常值检测看作是一个二分类问题，即将所有样本分为正常样本和异常样本，但这和常规的二分类问题又有所区别，常规的二分类一般要求正负样本是均衡的，如果正负样本不均匀的话，训练结果往往会不太好。但在异常值检测问题中，往往面临着正（正常值）负（异常值）样本不均匀的问题，异常值通常比正常值要少得多，因此需要对常规的二分类模型做一些改进。

基于模型的异常值检测一般可分为有监督模型异常值检测和无监督模型异常值检测，比较典型的有监督模型如oneclassSVM、基于神经网络的自编码器等。 oneclassSVM就是在经典的SVM基础上改进而来，它用一个超球面替代了超平面，超球面以内的值为正常值，超球面以外的值为异常值。

经典的SVM

1

基于模型的方法

2

基于神经网络的自编码器结构如下图所示。

自编码器（AE）

将正常样本用于模型训练，输入与输出之间的损失函数可采用常见的均方误差，因此检测过程中，当正常样本输入时，均方误差会较小，当异常样本输入时，均方误差会较大，设置合适的阈值便可将异常样本检测出来。但该方法也有缺点，就是对于训练样本比较相近的正常样本判别较好，但若正常样本与训练样本相差较大，则可能会导致模型误判。

无监督模型的异常值检测是异常值检测中的主流方法，因为异常值的标注成本往往较高，另外异常值的产生往往无法预料，因此有些异常值可能在过去的样本中根本没有出现过，这将导致某些异常样本无法标注，这也是有监督模型的局限性所在。较为常见的无监督异常值检测模型有密度聚类（DBSCAN）、IsolationForest（IF）、RadomCutForest（RCF）等，其中DBSCAN是一种典型的无监督聚类方法，对某些类型的异常值检测也能起到不错的效果。该算法原理网上资料较多，本文不作详细介绍。

IF算法最早由南京大学人工智能学院院长周志华的团队提出，是一种非常高效的异常值检测方法，该方法不需要对样本数据做任何先验的假设，只需基于这样一个事实——异常值只是少数，并且它们具有与正常值非常不同的属性值。与随机森林由大量决策树组成一样，IsolationForest也由大量的树组成。IsolationForest中的树叫isolation tree，简称iTree。iTree树和决策树不太一样，其构建过程也比决策树简单，因为其中就是一个完全随机的过程。

假设数据集有N条数据，构建一颗iTree时，从N条数据中均匀抽样(一般是无放回抽样)出n个样本出来，作为这颗树的训练样本。

在样本中，随机选一个特征，并在这个特征的所有值范围内（最小值与最大值之间）随机选一个值，对样本进行二叉划分，将样本中小于该值的划分到节点的左边，大于等于该值的划分到节点的右边。

这样得到了一个分裂条件和左、右两边的数据集，然后分别在左右两边的数据集上重复上面的过程，直至达到终止条件。终止条件有两个，一个是数据本身不可再分(只包括一个样本，或者全部样本相同)，另外一个是树的高度达到log2(n)。不同于决策树，iTree在算法里面已经限制了树的高度。不限制虽然也可行，但出于效率考虑，算法一般要求高度达到log2(n)深度即可。

把所有的iTree树构建好了，就可以对测试数据进行预测了。预测的过程就是把测试数据在iTree树上沿对应的条件分支往下走，直到达到叶子节点，并记录这过程中经过的路径长度h(x)，即从根节点，穿过中间的节点，最后到达叶子节点，所走过的边的数量(path length)。最后，将h(x)带入公式，其中E(.)表示计算期望，c(n)表示当样本数量为n时，路径长度的平均值，从而便可计算出每条待测数据的异常分数s(Anomaly Score)。异常分数s具有如下性质：

1）如果分数s越接近1，则该样本是异常值的可能性越高；

2）如果分数s越接近0，则该样本是正常值的可能性越高；

RCF算法与IF算法思想上是比较类似的，前者可以看成是在IF算法上做了一些改进。针对IF算法中没有考虑到的时间序列因素，RCF算法考虑了该因素，并且在数据样本采样策略上作出了一些改进，使得异常值检测相对IF算法变得更加准确和高效，并能更好地应用于流式数据检测。

IF算法

RCF算法

上图展示了IF算法和RCF算法对于异常值检测的异同。我们可以看出原始数据中有两个突变异常数据值，对于后一个较大的突变异常值，IF算法和RCF算法都检测了出来，但对于前一个较小的突变异常值，IF算法没有检测出来，而RCF算法依然检测了出来，这意味着RCF有更好的异常值检测性能。

异常值检测应用实践

理论还需结合实践，下面我们将以某应用从2016.08.16至2019.09.21的日活变化情况为例，对异常值检测的实际应用场景予以介绍：

从上图中可以看出该应用的日活存在着一些显著的异常值（比如红色圆圈部分），这些异常值可能由于活动促销或者更新迭代出现bug导致日活出现了比较明显的波动。下面分别用基于统计的方法和基于模型的方法对该日活序列数据进行异常值检测。

基于3σ法则（基于统计）

RCF算法（基于模型）

从图中可以看出，对于较大的突变异常值，3σ法则和RCF算法都能较好地检测出来，但对于较小的突变异常值，RCF算法则要表现得更好。

总结

上文为大家讲解了异常值检测的方法原理以及应用实践。综合来看，异常值检测算法多种多样，每一种都有自己的优缺点和适用范围，很难直接判断哪一种异常检测算法是最佳的，具体在实战中，我们需要根据自身业务的特点，比如对计算量的要求、对异常值的容忍度等，选择合适的异常值检测算法。

接下来，个推也会结合自身实践，在大数据异常检测方面不断深耕，继续优化算法模型在不同业务场景中的性能，持续为开发者们分享前沿的理念与最新的实践方案。

如何判别测量数据中是否有异常值？

一般异常值的检测方法有基于统计的方法，基于聚类的方法，以及一些专门检测异常值的方法等，下面对这些方法进行相关的介绍。

1. 简单统计

如果使用pandas，我们可以直接使用describe()来观察数据的统计性描述（只是粗略的观察一些统计量），不过统计数据为连续型的，如下：

df.describe()

或者简单使用散点图也能很清晰的观察到异常值的存在。如下所示：

2. 3∂原则

这个原则有个条件：数据需要服从正态分布。在3∂原则下，异常值如超过3倍标准差，那么可以将其视为异常值。正负3∂的概率是99.7%，那么距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003，属于极个别的小概率事件。如果数据不服从正态分布，也可以用远离平均值的多少倍标准差来描述。

红色箭头所指就是异常值。

3. 箱型图

这种方法是利用箱型图的四分位距（IQR）对异常值进行检测，也叫Tukey‘s test。箱型图的定义如下：

四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准，规定：超过上四分位+1.5倍IQR距离，或者下四分位-1.5倍IQR距离的点为异常值。下面是Python中的代码实现，主要使用了numpy的percentile方法。

也可以使用seaborn的可视化方法boxplot来实现：

红色箭头所指就是异常值。

以上是常用到的判断异常值的简单方法。下面来介绍一些较为复杂的检测异常值算法，由于涉及内容较多，仅介绍核心思想，感兴趣的朋友可自行深入研究。

4. 基于模型检测

这种方法一般会构建一个概率分布模型，并计算对象符合该模型的概率，把具有低概率的对象视为异常点。如果模型是簇的集合，则异常是不显著属于任何簇的对象；如果模型是回归时，异常是相对远离预测值的对象。

比如特征工程中的RobustScaler方法，在做数据特征值缩放的时候，它会利用数据特征的分位数分布，将数据根据分位数划分为多段，只取中间段来做缩放，比如只取25%分位数到75%分位数的数据做缩放。这样减小了异常数据的影响。

优缺点：（1）有坚实的统计学理论基础，当存在充分的数据和所用的检验类型的知识时，这些检验可能非常有效；（2）对于多元数据，可用的选择少一些，并且对于高维数据，这些检测可能性很差。

5. 基于近邻度的离群点检测

统计方法是利用数据的分布来观察异常值，一些方法甚至需要一些分布条件，而在实际中数据的分布很难达到一些假设条件，在使用上有一定的局限性。

确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用，因为一个对象的离群点得分由到它的k-最近邻（KNN）的距离给定。

需要注意的是：离群点得分对k的取值高度敏感。如果k太小，则少量的邻近离群点可能导致较低的离群点得分；如果K太大，则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性，可以使用k个最近邻的平均距离。

优缺点：（1）简单；（2）缺点：基于邻近度的方法需要O(m2)时间，大数据集不适用；（3）该方法对参数的选择也是敏感的；（4）不能处理具有不同密度区域的数据集，因为它使用全局阈值，不能考虑这种密度的变化。

5. 基于密度的离群点检测

从基于密度的观点来说，离群点是在低密度区域中的对象。基于密度的离群点检测与基于邻近度的离群点检测密切相关，因为密度通常用邻近度定义。一种常用的定义密度的方法是，定义密度为到k个最近邻的平均距离的倒数。如果该距离小，则密度高，反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义，即一个对象周围的密度等于该对象指定距离d内对象的个数。

优缺点：（1）给出了对象是离群点的定量度量，并且即使数据具有不同的区域也能够很好的处理；（2）与基于距离的方法一样，这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm)；（3）参数选择是困难的。虽然LOF算法通过观察不同的k值，然后取得最大离群点得分来处理该问题，但是，仍然需要选择这些值的上下界。

6. 基于聚类的方法来做异常点检测

基于聚类的离群点：一个对象是基于聚类的离群点，如果该对象不强属于任何簇，那么该对象属于离群点。

离群点对初始聚类的影响：如果通过聚类检测离群点，则由于离群点影响聚类，存在一个问题：结构是否有效。这也是k-means算法的缺点，对离群点敏感。为了处理该问题，可以使用如下方法：对象聚类，删除离群点，对象再次聚类（这个不能保证产生最优结果）。

优缺点：（1）基于线性和接近线性复杂度（k均值）的聚类技术来发现离群点可能是高度有效的；（2）簇的定义通常是离群点的补，因此可能同时发现簇和离群点；（3）产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性；（4）聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

7. 专门的离群点检测

其实以上说到聚类方法的本意是是无监督分类，并不是为了寻找离群点的，只是恰好它的功能可以实现离群点的检测，算是一个衍生的功能。