统计学基础

参考课程:《可汗学院公开课:统计学》

基本概念

  • 均值(算术平均值)、中位数、众数、极值、中程数
  • 中程数指极值的算术平均值

常见统计图

  • 条形图

    • 数值比较
  • 线形图

    • 趋势比较
  • 饼图

    • 比例比较
  • 箱形图

    • 分布比较
    • 标记出数据的上下四分位数、中位数,画出上四分位+1.5倍四分为距离,下四分位数-1.5倍四分位距离。
    • 统计学基础 - 图1
  • 茎叶图

    • 把数据的各位数值分开(个十百千…)
    • 直观体现数据分布,

集中趋势

  • 均值

    • 算术平均值
    • 几何平均值
  • 中位数
  • 众数
  • 样本与总体

    • 样本均值 x
    • 总体均值 u

离散趋势

  • 方差、标准差
  • 用样本方差对总体方差的估计会偏小

    • 样本方差用残差和除以(样本数n)
    • 用样本估计总体的方差时需要除以 (样本数量n-1)
    • n和n-1的关系是经过严格证明的

随机变量

  • 离散随机

    • 二项分布
  • 连续随机

    • 概率密度函数
    • 单点概率无意义,区间的密度函数积分代表了区间概率
    • 正态分布
  • 常见分布

    • 二项分布

      • 公平的抛硬币
    • 泊松分布

      • 假设经过长期观测发现,某一路段发生交通事故的次数为9次/时间段,问某个时间段之内恰好发生2次的概率
      • 特点

        • 事件期望已知,离散型概率分布
        • 概率计算:统计学基础 - 图2
    • 正态分布

      • 自然见最常见的分布
      • 中心极限定理

        • 对于任意抽样总体,满足数学期u方差σ2/n)的正态分布
      • 正态分布经验

        • 到均值的距离

          • 一个标准差 68%
          • 两个标准差 95%
          • 三个标准差 99.7%
      • 标砖正太分布

        • 均值为0, 方差为1
      • 偏度与峰度

        • 峰度:在相同的标准差下,峰度系数越大,分布就会有更多的极端值,其余数值必然更加集中地分布在均值附近,分布更加陡峭
        • 出现正方向的长尾,即为正偏
    • 伯努利分布

      • 二项分布的一种

        • 成功为1, 失败为0
      • 均值P
      • 期望P(1-P)
  • 大数定律

    • 在试验不变的条件下,重复试验多次,随机事件的频率近似于他的概率。

假设检验

  • 说明

    • 通常设定两个假设,零假设和备择假设,通过拒绝\接收零假设(根据P值),来接收\拒绝备择假设。p表示(如果零假设成立,得到此种测量样本结果的概率)。
  • 双边检验(检查有无影响),单边检验(是否有具体的正向\负向的影响)
  • 置信区间

    • 有多少概率认为时间发生
    • 小样本置信区间

      • 样本容量很小(<30)时,样本均值的抽样分布不满足正态分布,应换用t分布
      • t分布需要考察样本数据的自由度
  • 几个常见检验

    • 小样本假设检验

      • t分布

        • 针对正态分布小样本的修正。
        • 样本容量n, 样本自由度n-1
    • 卡方分布

      • n个相互独立、服从标准正态分布的随机变量,这些随机变量的和构成一个新的随机变量,服从自由度为n的卡方分布
    • 皮尔逊检验

      • 检验试剂频率与理论频率是否接近

        • 已知所有被检验的事件频率和为1
        • 自由度 n-1
    • 列联检验

      • 检验因素之间是否有相关性

        • 自由度 (列数-1)*(行数-1)
    • 方差检验

      • 检验数据波动的来源,即数据波动主要来自组间数据还是组内数据
      • 几个概念(考察m*n的数据)

        • SST sum-square-total

          • 总方差
          • 自由度 m*n-1
        • SSW sum-square-within

          • 组内方差
          • 认为没有组间波动,各组均值相同,等于总数据的均值
          • 计算每个数据与这组数据的均值的波动
          • n列数据,每组自由度为m-1,总自由度为 n*(m-1)
        • SSB sum-square-between

          • 组间方差
          • 认为组内部没有区别,即每个数据都等于这一组数据的均值
          • 自由度 n-1
        • 关系:

          • SST = SSW + SSB 总方差和 = 组内方差 + 组间方差
          • 总自由度 = 组内自由度 + 组间自由度
    • F检验/联合假设检验

      • (组间平方和 除以 组间自由度)/(组内平方和 除以 组内自由度)
      • 统计学基础 - 图3
  • 相关性

    • 协方差定义

      • 两个随机变量与各自均值之间距离之积的期望
      • Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}E表示期望值
      • 化简 :Cov(x,y) = E(XY)-E(X)E(Y)
    • 相关系数

      • 统计学基础 - 图4
      • 绝对值越接近1,相关性越好
      • 0 正相关

  1. - <0 负相关
  • 线性回归

    • 求解

      1. 设 y=kx+b
      2. 实际y 与 经过直线的f(x)值 差的平方和
      3. 对方程求偏导数,得到关于k b的二元一次方程
    • 解的形式

      • 斜率k
      • 统计学基础 - 图5
      • 截距
      • 统计学基础 - 图6
      • 解经过点(x均值,y均值)
    • R^2

      • 描述拟合程度的好坏
      • 计算

        • 1-(不能由拟合直线减弱的波动比例)
        • 总波动:y 和 y均值 的方差
        • 不能由拟合直线体现的波动:

          • y 和 f(x)的方差
          • 经过拟合后, 这个一部分误差无法去除,也就是拟合直线无法影响到的波动量
      • R^2 越接近1,说明拟合成都越好。