统计学基础
参考课程:《可汗学院公开课:统计学》
基本概念
- 均值(算术平均值)、中位数、众数、极值、中程数
- 中程数指极值的算术平均值
常见统计图
条形图
- 数值比较
线形图
- 趋势比较
饼图
- 比例比较
箱形图
- 分布比较
- 标记出数据的上下四分位数、中位数,画出上四分位+1.5倍四分为距离,下四分位数-1.5倍四分位距离。

茎叶图
- 把数据的各位数值分开(个十百千…)
- 直观体现数据分布,
集中趋势
均值
- 算术平均值
- 几何平均值
- 中位数
- 众数
样本与总体
- 样本均值 x
- 总体均值 u
离散趋势
- 方差、标准差
用样本方差对总体方差的估计会偏小
- 样本方差用残差和除以(样本数n)
- 用样本估计总体的方差时需要除以 (样本数量n-1)
- n和n-1的关系是经过严格证明的
随机变量
离散随机
- 二项分布
连续随机
- 概率密度函数
- 单点概率无意义,区间的密度函数积分代表了区间概率
- 正态分布
常见分布
二项分布
- 公平的抛硬币
泊松分布
- 假设经过长期观测发现,某一路段发生交通事故的次数为9次/时间段,问某个时间段之内恰好发生2次的概率
特点
- 事件期望已知,离散型概率分布
- 概率计算:

正态分布
- 自然见最常见的分布
中心极限定理
- 对于任意抽样总体,满足数学期u方差σ2/n)的正态分布
正态分布经验
到均值的距离
- 一个标准差 68%
- 两个标准差 95%
- 三个标准差 99.7%
标砖正太分布
- 均值为0, 方差为1
偏度与峰度
- 峰度:在相同的标准差下,峰度系数越大,分布就会有更多的极端值,其余数值必然更加集中地分布在均值附近,分布更加陡峭
- 出现正方向的长尾,即为正偏
伯努利分布
二项分布的一种
- 成功为1, 失败为0
- 均值P
- 期望P(1-P)
大数定律
- 在试验不变的条件下,重复试验多次,随机事件的频率近似于他的概率。
假设检验
说明
- 通常设定两个假设,零假设和备择假设,通过拒绝\接收零假设(根据P值),来接收\拒绝备择假设。p表示(如果零假设成立,得到此种测量样本结果的概率)。
- 双边检验(检查有无影响),单边检验(是否有具体的正向\负向的影响)
置信区间
- 有多少概率认为时间发生
小样本置信区间
- 样本容量很小(<30)时,样本均值的抽样分布不满足正态分布,应换用t分布
- t分布需要考察样本数据的自由度
几个常见检验
小样本假设检验
t分布
- 针对正态分布小样本的修正。
- 样本容量n, 样本自由度n-1
卡方分布
- n个相互独立、服从标准正态分布的随机变量,这些随机变量的和构成一个新的随机变量,服从自由度为n的卡方分布
皮尔逊检验
检验试剂频率与理论频率是否接近
- 已知所有被检验的事件频率和为1
- 自由度 n-1
列联检验
检验因素之间是否有相关性
- 自由度 (列数-1)*(行数-1)
方差检验
- 检验数据波动的来源,即数据波动主要来自组间数据还是组内数据
几个概念(考察m*n的数据)
SST sum-square-total
- 总方差
- 自由度 m*n-1
SSW sum-square-within
- 组内方差
- 认为没有组间波动,各组均值相同,等于总数据的均值
- 计算每个数据与这组数据的均值的波动
- n列数据,每组自由度为m-1,总自由度为 n*(m-1)
SSB sum-square-between
- 组间方差
- 认为组内部没有区别,即每个数据都等于这一组数据的均值
- 自由度 n-1
关系:
- SST = SSW + SSB 总方差和 = 组内方差 + 组间方差
- 总自由度 = 组内自由度 + 组间自由度
F检验/联合假设检验
- (组间平方和 除以 组间自由度)/(组内平方和 除以 组内自由度)

相关性
协方差定义
- 两个随机变量与各自均值之间距离之积的期望
- Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}E表示期望值
- 化简 :Cov(x,y) = E(XY)-E(X)E(Y)
相关系数

- 绝对值越接近1,相关性越好
0 正相关
- <0 负相关
线性回归
求解
- 设 y=kx+b
- 实际y 与 经过直线的f(x)值 差的平方和
- 对方程求偏导数,得到关于k b的二元一次方程
解的形式
- 斜率k

- 截距

- 解经过点(x均值,y均值)
R^2
- 描述拟合程度的好坏
计算
- 1-(不能由拟合直线减弱的波动比例)
- 总波动:y 和 y均值 的方差
不能由拟合直线体现的波动:
- y 和 f(x)的方差
- 经过拟合后, 这个一部分误差无法去除,也就是拟合直线无法影响到的波动量
- R^2 越接近1,说明拟合成都越好。
