异常值替换或者删除含有异常值的样本

判断异常值并赋空值

3sigma

  1. for i in df.columns:
  2. k=0
  3. for j in df[i]:
  4. k += 1 # 行索引
  5. if abs(j - df[i].mean()) >= 3 * df[i].std():
  6. df.loc[str(k),i] = np.nan

箱型图

  1. df.describe()

25%:下四分位数
75%:上四分位数
怎么理解,想象箱型图,数值从下往上排列,从小到大,25%就是下四分位了
不能小于25%-1.5IQR,不能大于75%+1.5IQR