计算机时代的统计 - 基本知识 - 《不白分析》

统计分为描述统计与推理统计：

描述统计学描述了数据的基本情况，一般是研究数据的中段（如平均值、中位数和众数）在哪儿，统计学家称之为集中趋势的度量，以及数据分布特征的度量；他们根据大量不直观的数据，通过分析总结，希望得到有价值的信息。
推理统计学能对手中的数据进行延伸推论，满足条件下用“样本”估计总体，可以让我们验证一个假设或想法，如回答“在美国30岁以下的人吃的快餐更多吗”这种问题。
经过推理统计的测试，仍存在一定程度的不确定性，毕竟答应非是即否，你的工作就是排除不确定因素，获取有价值信息。如果统计学是超级英雄，那么他的超能力就是“不确定”，而他的口号就是“我会犯错，但不能不做”——统计学是“help us to reason”而不是“reason for us”——他帮我们看清了不确定性，但没有排除不确定性。

大数定律：当群体或样本足够大后，小概率时间完全可能发生。

数学思维不只是让你对数字理解更为透彻，而是对身边的世界提出有意义的问题，并用数字表达这些问题。

描述性统计学

更好的理解数据的集中程度，有助于挖掘事物的真正内涵。一堆数据点的中段，通常能很好的体现（概括）出我们想描述的整体数据。

双峰数据是“多峰”数据的一种，多峰数据源自两个或多个基群的共同作用。

离散程度表示的是数据怎样分布在均值周围，这可以告诉我们平均数或中位数的可信度，以及由这些信息推导出的信息的可信度。

四分位距：为了排除极端值的干扰，我们一般使用四分位距（IQR）来描述，IQR主要描述的是中位数周围的情况。
方差：反应各个离散数据与均值的偏离程度。如果用样本方差的方法来计算总体方差，则会有偏差（Bias），因为样本方差往往要小一点，所以要进行无偏估计，即要除以n-1而不是n。
标准差：是方差的开根号，可以理解为样本平均与均值的偏离。
与均值一样，方差和标准差都容易被极端数据干扰。