1.简单统计量的分析
    2.3δ原则
    3.箱型图

    1. #-*- coding: utf-8 -*-
    2. import pandas as pd
    3. catering_sale = '../data/catering_sale.xls' #餐饮数据
    4. data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列
    5. import matplotlib.pyplot as plt #导入图像库
    6. plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
    7. plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
    8. plt.figure() #建立图像
    9. p = data.boxplot(return_type='dict') #画箱线图,直接使用DataFrame的方法
    10. x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签
    11. y = p['fliers'][0].get_ydata()
    12. y.sort() #从小到大排序,该方法直接改变原对象
    13. #用annotate添加注释
    14. #其中有些相近的点,注解会出现重叠,难以看清,需要一些技巧来控制。
    15. #以下参数都是经过调试的,需要具体问题具体调试。
    16. for i in range(len(x)):
    17. if i>0:
    18. plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
    19. else:
    20. plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))
    21. plt.show() #展示箱线图

    image.png