坑
在Seaborn中表示数据分布的时候通常使用直方图或者概率密度图。比较两组数据的时候会把两组数据的概率密度线放到同一个图中对比,此时一定要注意两条曲线的可比性问题,尤其是在两个要对比的数据的数据量差别较大的时候,因为Seaborn的kdeplot函数绘制概率密度线的精细程度会根据数据量的大小有差异。
例
test1是我们的一份实际数据,test2是从test1中随机抽样的数据,两份数据量差异较大,从直方图来看数据的分布差异不大,但是两条概率密度线差异较大,如果单纯看概率密度曲线可能会得到误导人的结论。
教训
- 使用概率密度线比较两个数据的分布时,尽量保证数据量差异不大。
- 参考直方图的分布形状,及早发现异常状况。
- 要比较的两个数据的数据量差异较大时,可以使用随机采样减少数据量,或者上采样增加数据量来调整数据量,保证可比性。