异常检测 - 局部核密度估计异常检测 (KdeOutlierBatchOp) - 《Alink 1.5.6 文档 - 帮助手册 - 教程》

功能介绍
- 算法原理
参数说明
代码示例

Java 类名：com.alibaba.alink.operator.batch.outlier.KdeOutlierBatchOp
Python 类名：KdeOutlierBatchOp

功能介绍

KDE（Kernel Density Estimation核密度估计）是一种通过数据样本集，得到总体的概率分布的非参数估计方法。KDE异常检测算法将概率密度小的点视为异常点。

算法原理

该组件以每个点的数据、带宽作为参数，根据设置的核函数（高斯核或线性核）估计样本中每个数据点及其附近的概率密度函数。

带宽(bandwidth)：带宽设的越小，误差越小，但方差越大，KDE整体曲线就越陡峭，反之，就越平坦。不同的带宽对拟合结果的影响可能很大。
核函数(kernel)：用来对每个数据点得到光滑的、积分为1的概率密度估计。
参数说明
| 名称 | 中文名称 | 描述 | 类型 | 是否必须？ | 取值范围 | 默认值 | | —- | —- | —- | —- | —- | —- | —- |

代码示例

Python 代码

import pandas as pd
df = pd.DataFrame([
                [-1.1],
                [0.2],
                [101.1],
                [0.3]
        ])
dataOp = BatchOperator.fromDataframe(df, schemaStr='val double')
outlierOp = KdeOutlierBatchOp()\
            .setFeatureCols(["val"])\
            .setBandwidth(4.0)\
            .setOutlierThreshold(15.0)\
            .setPredictionCol("pred")\
            .setPredictionDetailCol("pred_detail")
dataOp.link(outlierOp).print()

Java 代码

import com.alibaba.alink.operator.batch.BatchOperator;
import com.alibaba.alink.operator.batch.outlier.KdeOutlierBatchOp;
import com.alibaba.alink.operator.batch.source.MemSourceBatchOp;
import org.junit.Test;
public class KdeOutlierBatchOpTest {
    @Test
    public void testBatchOp() throws Exception {
        BatchOperator <?> data = new MemSourceBatchOp(
            new Object[][] {
                {-1.1},
                {0.2},
                {101.1},
                {0.3}}
            , new String[] {"val"}
        );
        KdeOutlierBatchOp kdeOutlierBatchOp = new KdeOutlierBatchOp()
            .setBandwidth(4.)
            .setOutlierThreshold(15.)
            .setFeatureCols("val")
            .setPredictionCol("pred")
            .setPredictionDetailCol("pred_detail")
            .linkFrom(data)
            .print();
    }
}

运行结果

| val | pred | pred_detail | | —- | —- | —- |

| -1.1 | false | {“outlier_score”:”13.881629239608612”,”KDE”:”0.0720376537032619”,”is_outlier”:”false”} |

| 0.2 | false | {“outlier_score”:”13.603363005188747”,”KDE”:”0.07351123392197714”,”is_outlier”:”false”} |

| 101.1 | true | {“outlier_score”:”40.106052394096”,”KDE”:”0.02493389252508955”,”is_outlier”:”true”} |

| 0.3 | false | {“outlier_score”:”13.640235707107605”,”KDE”:”0.07331251610842206”,”is_outlier”:”false”} |