概念

  • 总体:又称母体或者总体,既研究对象的全体,一般用字母N表示。
  • 样本:又称字样或总体样本,既从总体中抽取的部分单位称为样本;
    • 小样本:样本数 < 30
    • 大样本:样本数 > 30
  • 总体参数:根据总体各单位的标志值或标志属性计算的,反应总体的数量特征的综合指标称为总体指标,总体指标是总体变量的函数,其数值是确定的、唯一的、因此称为总体参数。
    • 常用的总体参数:
      • 总体平均数
      • 成数
      • 方差
  • 统计量:根据样本各单位标志值或标志属性计算的,反应样本数量特征的综合指标称为样本指标。
    • 样本指标是样本变量的函数,用来估计总体参数,因此也称为统计量
    • 统计量的值随着样本的不同而不同,因此统计量是个随机变量
    • 常用的统计量:
      • 平均数
      • 成数
      • 方差

总体参数(指标):
总体平均数image.png
计算公式:image.png

总体标准差:
计算公式:image.png

样本平均数的计算思想和总体平均数的计算思想相同。

样本标准差:
计算公式:image.png

总体成数:
成数的概念是所占比率的概念。
设总体中N个总体的单位某项标志的标志值分别为 X1, X2, 。。。。。。Xn,其中具有某种属性的有N1个单位,不具有某种属性的有N0个单位,则:
image.png称为总体的成数(总体的所占比率),总体的属性方差为:image.png

样本成数:
设样本中有n个样本单位,某项标志的标志值分别为x1.。。。。。。xn,其中具有和不具有某种属性的样本单位数目分别为n1和n0个,则:
image.png,样本标准差:image.png(pq)

抽样推断的基本原理

中心极限定理:
如果总体的变量存在有限的平均数和方差,则不论这个总体的变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布会趋于正态分布。
全部可能的样本平均数的均值等于总体均值,当n足够大时,从非正态分布的数据集的总体中抽取出的样本平均数其分布接近于正态分布:抽样推断 - 图9

大数法则:
随着抽样单位数的增加,抽样平均数x有接近总体平均数X的趋势。

抽样的方法

重复抽样:
image.png

不重复抽样:
image.png

抽样的组织形式

简单随机抽样:纯随机抽样,他对总体的单位不作任何的分类排队,而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。

适用范围:适用于总体内部差别不大,数据的规模也不大的情况。

类型抽样:
别名:分类抽样、分层抽样,先将总体按照某个主要标志进行分类(或分组),再按随机原则从各组中抽取样本单位的一种抽样方式,例如从男性中抽取一部分,从女性中抽取一部分。(按照性别分类)

抽样方法:

  • 等数分配类型抽样法
  • 等比例类型抽样法
  • 不等比例类型抽样法

等距抽样:
别名:机械抽样、系统抽样,他是将总体各单位按照某一标志顺序排列,然后按照固定顺序和相等距离或者间隔抽取样本单位的抽样组织方式。

等距抽样按总体单位排队依据的标志不同分为无关标志排队和有关标志排队。所谓无关标志是指用来排队的标志与调查研究的内容无关。所谓有关标志,是指用来排队的标志与调查研究的内容有关。

整群抽样
别名:集团抽样、区域抽样、分散随机抽样
将整体按照时间或者空间的形式划分为许多群,然后按照随机抽样或者机械抽样的方式从中抽取部分群,对中选群的所有单位进行全面调查的抽样组织方式。

抽样误差

概念:抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,从而引起的抽样指标和总体指标的绝对离差。

离差是指一个观测值和特定的参照点之间的差距

主要包括:样本平均数和总体平均数之差,样本成数和总体成数之差。

抽样实际误差
随机因素引起的误差,无法计算。

抽样平均误差
抽样平均误差是指抽样平均数的标准差或者抽样成数的标准差,反应抽样指标和总体指标的平均离差程度。
image.png

案例:
image.png

抽样平均误差的计算:
在重复抽样下,抽样平均误差为:抽样推断 - 图14%22%20aria-hidden%3D%22true%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-3BC%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(603%2C-150)%22%3E%0A%20%3Cuse%20transform%3D%22scale(0.707)%22%20xlink%3Ahref%3D%22%23E1-MJMATHI-78%22%20x%3D%2235%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(27%2C36)%22%3E%0A%20%3Cuse%20transform%3D%22scale(0.707)%22%20xlink%3Ahref%3D%22%23E1-MJMAIN-AF%22%20x%3D%22-70%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20transform%3D%22scale(0.707)%22%20xlink%3Ahref%3D%22%23E1-MJMAIN-AF%22%20x%3D%22142%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-3D%22%20x%3D%221463%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(2241%2C0)%22%3E%0A%3Cg%20transform%3D%22translate(397%2C0)%22%3E%0A%3Crect%20stroke%3D%22none%22%20width%3D%221554%22%20height%3D%2260%22%20x%3D%220%22%20y%3D%22220%22%3E%3C%2Frect%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-3C3%22%20x%3D%22490%22%20y%3D%22676%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(60%2C-803)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-221A%22%20x%3D%220%22%20y%3D%22-78%22%3E%3C%2Fuse%3E%0A%3Crect%20stroke%3D%22none%22%20width%3D%22600%22%20height%3D%2260%22%20x%3D%22833%22%20y%3D%22663%22%3E%3C%2Frect%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6E%22%20x%3D%22833%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fsvg%3E#card=math&code=%5Cmu_%7B%5Cbar%7Bx%7D%7D%20%3D%20%5Cfrac%7B%5Csigma%7D%7B%5Csqrt%7Bn%7D%7D&id=AgpcI)
抽样推断 - 图15为总体标准差,在总体标准差未知的情况下,可用下面的方式代替:

  1. 样本数较大是,可以用样本标准差(S)代替
  2. 用以前(近期)的总体标准差代替
  3. image.png

在不重复抽样下,抽样平均误差为:
抽样推断 - 图17

当总体N很大时(N >= 500)
抽样推断 - 图18

当总体N非常大时或者未知时:
抽样推断 - 图19

例题1:
image.png
计算出所有的样本可能性的均值,然后计算样本均值的标准差 = 7.07,即为计算的平均误差。

由于抽样是不重复抽样,使用公式:抽样推断 - 图21带入抽样推断 - 图22

例题2:
image.png
image.png

image.png

image.png