统计学基础

统计学基础

参考课程：《可汗学院公开课：统计学》

基本概念

均值(算术平均值)、中位数、众数、极值、中程数
中程数指极值的算术平均值

常见统计图

条形图
- 数值比较
线形图
- 趋势比较
饼图
- 比例比较
箱形图
- 分布比较
- 标记出数据的上下四分位数、中位数，画出上四分位+1.5倍四分为距离，下四分位数-1.5倍四分位距离。
茎叶图
- 把数据的各位数值分开(个十百千…)
- 直观体现数据分布，

集中趋势

均值
- 算术平均值
- 几何平均值
中位数
众数
样本与总体
- 样本均值 x
- 总体均值 u

离散趋势

方差、标准差
用样本方差对总体方差的估计会偏小
- 样本方差用残差和除以（样本数n）
- 用样本估计总体的方差时需要除以 (样本数量n-1)
- n和n-1的关系是经过严格证明的

随机变量

离散随机
- 二项分布
连续随机
- 概率密度函数
- 单点概率无意义，区间的密度函数积分代表了区间概率
- 正态分布
常见分布
- 二项分布
  - 公平的抛硬币
- 泊松分布
  - 假设经过长期观测发现，某一路段发生交通事故的次数为9次/时间段，问某个时间段之内恰好发生2次的概率
  - 特点
    - 事件期望已知，离散型概率分布
    - 概率计算：
- 正态分布
  - 自然见最常见的分布
  - 中心极限定理
    - 对于任意抽样总体，满足数学期u方差σ2/n）的正态分布
  - 正态分布经验
    - 到均值的距离
      - 一个标准差 68%
      - 两个标准差 95%
      - 三个标准差 99.7%
  - 标砖正太分布
    - 均值为0，方差为1
  - 偏度与峰度
    - 峰度：在相同的标准差下，峰度系数越大，分布就会有更多的极端值，其余数值必然更加集中地分布在均值附近，分布更加陡峭
    - 出现正方向的长尾，即为正偏
- 伯努利分布
  - 二项分布的一种
    - 成功为1，失败为0
  - 均值P
  - 期望P(1-P)
大数定律
- 在试验不变的条件下，重复试验多次，随机事件的频率近似于他的概率。

假设检验

说明
- 通常设定两个假设，零假设和备择假设，通过拒绝\接收零假设(根据P值)，来接收\拒绝备择假设。p表示（如果零假设成立，得到此种测量样本结果的概率）。
双边检验（检查有无影响），单边检验(是否有具体的正向\负向的影响)
置信区间
- 有多少概率认为时间发生
- 小样本置信区间
  - 样本容量很小（<30)时，样本均值的抽样分布不满足正态分布，应换用t分布
  - t分布需要考察样本数据的自由度
几个常见检验
- 小样本假设检验
  - t分布
    - 针对正态分布小样本的修正。
    - 样本容量n, 样本自由度n-1
- 卡方分布
  - n个相互独立、服从标准正态分布的随机变量，这些随机变量的和构成一个新的随机变量，服从自由度为n的卡方分布
- 皮尔逊检验
  - 检验试剂频率与理论频率是否接近
    - 已知所有被检验的事件频率和为1
    - 自由度 n-1
- 列联检验
  - 检验因素之间是否有相关性
    - 自由度 (列数-1)*(行数-1)
- 方差检验
  - 检验数据波动的来源，即数据波动主要来自组间数据还是组内数据
  - 几个概念(考察m*n的数据)
    - SST sum-square-total
      - 总方差
      - 自由度 m*n-1
    - SSW sum-square-within
      - 组内方差
      - 认为没有组间波动，各组均值相同，等于总数据的均值
      - 计算每个数据与这组数据的均值的波动
      - n列数据，每组自由度为m-1,总自由度为 n*(m-1)
    - SSB sum-square-between
      - 组间方差
      - 认为组内部没有区别，即每个数据都等于这一组数据的均值
      - 自由度 n-1
    - 关系：
      - SST = SSW + SSB 总方差和 = 组内方差 + 组间方差
      - 总自由度 = 组内自由度 + 组间自由度
- F检验/联合假设检验
  - (组间平方和除以组间自由度)/(组内平方和除以组内自由度）
相关性
- 协方差定义
  - 两个随机变量与各自均值之间距离之积的期望
  - Cov(X,Y)=E{[X-E(X)][Y-E(Y)]｝E表示期望值
  - 化简：Cov(x,y) = E(XY)-E(X)E(Y)
- 相关系数
  - 绝对值越接近1，相关性越好
  - 0 正相关

  - <0 负相关

线性回归
- 求解
  1. 设 y=kx+b
  2. 实际y 与经过直线的f(x)值差的平方和
  3. 对方程求偏导数，得到关于k b的二元一次方程
- 解的形式
  - 斜率k
  - 截距
  - 解经过点（x均值，y均值）
- R^2
  - 描述拟合程度的好坏
  - 计算
    - 1-(不能由拟合直线减弱的波动比例)
    - 总波动：y 和 y均值的方差
    - 不能由拟合直线体现的波动：
      - y 和 f(x)的方差
      - 经过拟合后, 这个一部分误差无法去除，也就是拟合直线无法影响到的波动量
  - R^2 越接近1，说明拟合成都越好。