统计学基础

定义:通过对总体所抽样的样本数据(收集、整理、分析、展示),来分析总体的情况,切记不是为了分析样本,核心是推断总体的真实情况,然后用展示来将结论告知给被告知者。
image.png

样本

1. 样本 Sample

  • 总体中的一部分的观测值

    2. 代表性样本 Representative Sample

  • 样本结构及特征与总体相同

    3. 随机样本 Random Sample

  • 总体中每个观测值独立且机会均等地被选取好的样本的特征

    4. 好样本的特征

  • 有清晰定义的总体

  • 总体中没一个个体都有被抽选的机会
  • 样本是总体的缩影,样本具有代表性
  • 目标:样本是总体的缩影

    抽样方法

  1. 简单随机抽样 Random Sampling
  2. 系统抽样 Systemic sampling
  3. 分层抽样 Stratified sampling
  4. 整群抽样 Cluster sampling

    1. 简单随机抽样 Random Sampling

  • 前提:总体数据分布具有较强均匀性
  • 统计人口一个子集
  • 总体钟每个个体都有被抽取相同的概率
  • 一个简单随机抽样样本,是一个群体的【无偏】代表
  • 优点:保证目标群体的代表性和抽样偏差消除
  • 缺点:现实情况极难实现,都是成本和时间克服随机抽样缺点,还有其他抽样方法

image.png

2. 系统抽样 Systemic sampling

  • 是简单随机抽样的简单变形

image.png

3. 分层抽样 Stratified sampling

  • 根据总体之中每一个个体的特征分成几种类型称为“层”,再从每一层,用随机抽样方式,抽取一个样本
  • 分层抽样的原因:可得到各层信息。而且样本分配较均匀,提高估计准确度
  • 分层随机抽样原则:同层内个体性质差异小,而不同层间个体差异越大越好

image.png

4. 整群抽样 Cluster sampling

  • 先将总体区分位许多个不同的群体,然后随机抽取少数整体当成样本,从中选的整体全部调查
  • 整群抽样假设每一个群体都是总体的缩影,因此不同群体间个体差异要小,而群体内个体差异要大
  • 群大多是相似,如此导致采样误差增加,如果群都是一致,则进行一次以上观察,没有意义,因为观察结果都一样。精度损失与群的多样性有关,而多样性只有在采样之后才能知道

image.png

随机误差&系统误差

  • 随机误差:测量物体观察值的误差,原因不明偶然发生的误差。因为偶然,导致样本统计量和总体真值的差异。切记,随机误差永远不能被消除,但有办法降低
  • 假如总体(真值)的平均值μ,样本(统计值)的平均值是M,那么随机误差:Δ=μ-M
  • 系统误差:因系统问题制度流程问题造成的误差,可以通过改善消除

image.png

数据的衡量

1. 随机误差

  • 测量物体观测值的误差,不知原因,是偶然发生的误差

    2. 效度 Accuracy

  • 抽样所得样本中观测值接近总体真值的程度

    3. 信度 Precision

  • 抽样所得样本中观测值的集中分散的程度

image.png

4. 边际误差

  • 边际误差(Margin of error)
  • 符号:MOE
  • 表达式:

image.png

  • 符号:S,是样本的标准差,n是总体样本数量,α是置信度,t是标准分布表

5. 置信区间(误差范围)[x ̅ - MOS,x ̅ + MOS]

  • 接受计算结果误差范围多大?例如±5%
  • 置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围;置信水平是指总体参数值落在样本统计值某一区内的概率;置信区间越大,置信水平越高。
  • 符号: x ̅ ,是样本的平均值
  • 置信区间: x ̅ ± MOS
  • 置信区间:[x ̅ - MOS,x ̅ + MOS]

    6. 置信水平 1-α/2

  • 对于真实结果落入置信区间内,信心有多大

  • 置信度:α

    7. 标准差σ

  • 标准差:

image.png

8. 方差σ²:衡量数据变异程度

  • 预期的方差有多大?由人口统计学或过往研究估计得到

    9. 样本数量 n

  • 太小会导致精度降低,结果的置信度降低

image.png