统计分为描述统计与推理统计:

  1. 描述统计学描述了数据的基本情况,一般是研究数据的中段(如平均值、中位数和众数)在哪儿,统计学家称之为集中趋势的度量,以及数据分布特征的度量;他们根据大量不直观的数据,通过分析总结,希望得到有价值的信息。
  2. 推理统计学能对手中的数据进行延伸推论,满足条件下用“样本”估计总体,可以让我们验证一个假设或想法,如回答“在美国30岁以下的人吃的快餐更多吗”这种问题。
    经过推理统计的测试,仍存在一定程度的不确定性,毕竟答应非是即否,你的工作就是排除不确定因素,获取有价值信息。如果统计学是超级英雄,那么他的超能力就是“不确定”,而他的口号就是“我会犯错,但不能不做”——统计学是“help us to reason”而不是“reason for us”——他帮我们看清了不确定性,但没有排除不确定性。

大数定律:当群体或样本足够大后,小概率时间完全可能发生。

数学思维不只是让你对数字理解更为透彻,而是对身边的世界提出有意义的问题,并用数字表达这些问题。

描述性统计学

1. 数据的集中程度

更好的理解数据的集中程度,有助于挖掘事物的真正内涵。一堆数据点的中段,通常能很好的体现(概括)出我们想描述的整体数据。

  1. 均值(平均数、期望)比较适合用来描述“正常”数据,数据分布在两侧的频数基本相当,而且大部分数据集中在中段,如正态分布。
  2. 中值不需要计算每个数据,是数值从小到大排列,在最中间的数字。
  3. 众数表示最大众的数据,体现了个体对总体的总支撑,当数据很大的时候,众数是最有用的,你会有很多频繁出现的值。

双峰数据是“多峰”数据的一种,多峰数据源自两个或多个基群的共同作用。

2. 数据的离散趋势

离散程度表示的是数据怎样分布在均值周围,这可以告诉我们平均数或中位数的可信度,以及由这些信息推导出的信息的可信度。

  • 四分位距:为了排除极端值的干扰,我们一般使用四分位距(IQR)来描述,IQR主要描述的是中位数周围的情况。
  • 方差:反应各个离散数据与均值的偏离程度。如果用样本方差的方法来计算总体方差,则会有偏差(Bias),因为样本方差往往要小一点,所以要进行无偏估计,即要除以n-1而不是n。
  • 标准差:是方差的开根号,可以理解为样本平均与均值的偏离。
    与均值一样,方差和标准差都容易被极端数据干扰。