离群值是指一个数或一些数和其他数据的差异较大,在 数据分析中判断出离群值是非常重要的一步,必须要在建模之前完成,离群值的存在会对模型照成较大的影响, 比如KNN模型,由于使用的是欧氏距离,离群值会让模型变得不准确。使用箱型图可以帮助我们快速找到离群值。

离群值的处理策略

对于离群值处理有两种方式:保留,删除
如果离群值是因为数据录入的时候错误,就可以删除,这样不会对数据照成多大的影响。
如果是数据本身的极端表现,这个时候还是有将离群值予以保留,因为这样的离群值蕴含的信息比较多

一定要分清是什么原因导致的异常值,然后再考虑如何处理。

  • 首先,如果这一异常值并不代表一种规律性的,而是极其偶然的现象,或者说你并不想研究这种偶然的现象,这时可以将其删除。
  • 其次,如果异常值存在且代表了一种真实存在的现象,那就不能随便删除。

在现有的欺诈场景中很多时候欺诈数据本身相对于正常数据勒说就是异常的,我们要把这些异常点纳入,重新拟合模型,研究其规律。能用监督的用监督模型,不能用的还可以考虑用异常检测的算法来做。

离群值(异常值)的检测方法