统计 - 《编程》 - 极客文档

01. 自由度是什么？怎样确定？
02. 正态分布检验中自由度问题
03. t检验
04. 统计学意义（P值）

01. 自由度是什么？怎样确定？

定义：构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目，用df表示。
自由度的设定是出于这样一个理由：在总体平均数未知时，用样本平均数去计算离差（常用小s）会受到一个限制——要计算标准差（小s）就必须先知道样本平均数，而样本平均数和n都知道的情况下，数据的总和就是一个常数了。
所以，“最后一个”样本数据就不可以变了，因为它要是变，总和就变了，而这是不允许的。

通俗点说，一个班上有50个人，我们知道他们语文成绩平均分为80，现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩，但是最后一个人的你不能瞎说，因为平均分已经固定下来，自由度少一个。

02. 正态分布检验中自由度问题

在正态分布检验中，这里的M（三个统计量）为：N（总数）、平均数和标准差。
因为我们在做正态检验时，要使用到平均数和标准差以确定该正态分布形态，此外，要计算出各个区间的理论次数，我们还需要使用到N。
所以在正态分布检验中，自由度为K－3。

03. t检验

t检验适用于两个变量均数间的差异检验，多于两个变量间的均数比较要用方差分析。
无论哪种类型的t检验，都必须在满足特定的前提条件下: 正态性和方差齐性，应用才是合理的。这是因为必须在这样的前提下所计算出的t统计量才服从t分布，而t检验正是以t分布作为其理论依据的检验方法。
t检验是目前医学研究中使用频率最高，医学论文中最常见到的处理定量资料的假设检验方法。

04. 统计学意义（P值）

结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，P值为结果可信程度的一个递减指标，P值越大，我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。（p值越小越好）
P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联
我们重复类似实验，会发现约20个实验中有一个实验，我们所研究的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的相同结果，当总体中的变量存在关联，重复研究和发现关联的可能性与设计的统计学效力有关。）
在许多研究领域，0.05的P值通常被认为是可接受错误的边界水平。

而且通过这种方法，我们还可以知道在p值小于α的情况下犯第一类错误的实际概率是多少，p＝0.03<α=0.05，那么拒绝假设，这一决策可能犯错的概率是0.03。需要指出的是，如果P>α，那么假设不被拒绝，在这种情况下，第一类错误并不会发生。