6.1 样本、总体

点击查看【bilibili】

1. 定义

总体:社会研究人员想试图了解的整个大群体
样本:社会研究者通过抽样所调查的一个小群体

2. 抽样方法

  • 非随机抽样
    • 方便抽样
    • 配额抽样
    • 判断抽样
  • 随机抽样
    • 随机数表
    • 系统抽样
    • 分层抽样

      3. 抽样误差

      样本均值(x̅)几乎从来不会与总体均值(μ)完全一样;样本标准差(s)也几乎不会与总体标准差(σ)相等。
      这被称为抽样误差这种差异是总会存在的,不管抽样计划设计得多么完美,研究者有多么认真仔细。

      4. 均值的抽样分布

      考虑到存在抽样误差的情况下,如何推断总体呢?
      image.png
      image.png

6.2 均值的抽样分布

点击查看【bilibili】

1. 均值的抽样分布的特性

  • 均值的抽样分布近似于正态分布。这一点对于所有的抽样分布的均值都成立,不论其总体的原始数据的分布形状是什么,而只要样本足够大(大于30)。
  • 均值的抽样分布的均值(均值的均值)与真实的总体均值相等
  • 均值的抽样分布的标准差比总体的标准差要。即样本均值更加稳定。

    2. 标准误

    image.png
    σx̅:均值抽样分布的标准误
    σ:总体的标准差
    N:抽样分布的样本数量

例如,标准化的智商测验的总体均值( μ )为100,总体标准差(σ)为15。如果抽取一个规模为10的样本,样本均 值的标准误将会是?> 解答:σ> x̅=> 第六章 样本、总体、均值的抽样分布与置信区间 - 图4第六章 样本、总体、均值的抽样分布与置信区间 - 图5

3. Z值

image.png
x̅:某一样本的均值
v:总体均值
σx̅:均值的抽样分布的标准误 例如,标准化的智商测验的总体均值( μ )为100,总体标准差(σ)为15。如果抽取一个规模为10的样本,均值为105,请问样本均值的Z分数是多少?抽中样本均值等于或高于这个智商的概率是多少? 解答: 1)求抽样样本均值的标准误:σx̅=第六章 样本、总体、均值的抽样分布与置信区间 - 图7第六章 样本、总体、均值的抽样分布与置信区间 - 图8 2)求Z分数:Z=(x̅-μ)/σx̅=(105-100)/4.74=1.05 3)根据Z值查表得P值为0.15image.png


6.3 置信区间

点击查看【bilibili】

1. 定义

由样本估计量构造出的总体参数在一定置信水平下的估计区间,称为置信区间(Confidence Interval, CI)。

例:假设一所私立中学的校长想要估计学生的平均智商,而又不想花费时间和精力在对1000名学生进行的测验上。因此,这位校长随机抽取了25名学生进行测试。他发现他的样本均值为105。( 假设总体标准差已知为σ=15)

解答:
1)样本均值的标准误:σx̅=第六章 样本、总体、均值的抽样分布与置信区间 - 图10第六章 样本、总体、均值的抽样分布与置信区间 - 图11
image.png
image.png

  • 因此,这位校长可以以68%的置信度得出结论,全校的平均智商(μ)为105±3
  • 换句话说,有68%的机会(p=0.68),真实的总体均值在102-108这个区间内,即置信区间。
  • 在一个特定的概率水平(如68%)上有±3的误差范围,或者叫做估计误差。

一般在研究问题时,构建的是在95%置信水平的置信区间。95%叫置信度、置信水平、置信系数,或表示为α=0.05的显著性水平。
上述例题若使用95%的置信度,则如下所示
image.png
95%的置信区间= x̅ ± Z σx̅ = 105 ± 1.96 3 = 105 ± 5.88 = 99.12~110.88
其中5.88为估计误差
**

2. 常用的置信水平及对应的Z值(需记住)

置信度 Z值
90% 1.64
95% 1.96
99% 2.58

3. 对置信区间的理解

  • 总体均值是固定的,而样本构造出的置信区间是不固定的,是一个随机区间,会因样本的不同而不同。
  • 95%的置信区间意味着假设从总体中抽取100个样本构造置信区间,其中有95个包含了真实的总体参数,有5个没有包含。
  • 总体均值的置信区间 = 样本均值 ± 误差范围(又叫估计误差),估计误差 = Z σx̅ = Z σ/√N。因此在总体方差已知的情况下,若要减小估计误差,可以1)设置一个小的置信水平或2)增大样本量

6.4 均值的标准误(总体的标准差未知)

在6.3中计算总体均值的置信区间,有个前提是“总体方差已知”。如果现在不知道总体方差,该怎么办呢?
点击查看【bilibili】

1. 无偏估计

1)如果不知道总体标准差σ,则需要根据样本信息对总体的标准差进行无偏估计image.png
2)在均值的抽样分布中,依据image.png均值的标准误进行无偏估计image.png

image.png
image.png
但在有的教材中,均值标准误的无偏估计写作Sx̅=第六章 样本、总体、均值的抽样分布与置信区间 - 图20
这是因为他们在计算样本的标准差S时,使用的公式为image.png。计算样本标准差时,如果分母是N-1,说明是希望想通过样本求总体标准差;如果分母是N时,说明只是计算样本的标准差。目的不同,导致过程不同,但最终计算均值的标准误的无偏估计时,结果是相同的。

2. 标准误

如果总体标准差未知,均值的抽样分布服从于自由度为N-1t分布,其均值为总体均值μ,标准误为
Sx̅=第六章 样本、总体、均值的抽样分布与置信区间 - 图22
自由度:以样本的统计量估计总体参数时,样本中能自由变换的数据个数。
例如:在N=3的X、X、X的样本中,已知均值x̅=10,那么X、X两个数可以随便取值,但因为均值固定了,所以X值就是固定的,因此该样本的自由度df=3-1=2。

3. t分布

t分布是英国统计学家W.S.Gosset在1908年以笔名Student发表的论文中提出的,因此又叫学生t分布。

t分布的特性

image.png
t分布查表,根据显著性水平和自由度查表,得到t值。
比α=5%,N=6,则自由度df=5,对应的t值为2.571。
image.png

利用t值计算置信区间

通过逐步演示,让我们看一下如何利用t值计算置信区间。假设有一位研究人员想要检验幼儿园的儿童的合作程度。为了达到这个目的,他无参与地观察了一组儿童玩耍30分钟并记录下每一个儿童所采取的合作行为的次数。下面是每一个儿童所表现的合作行为的数量x:1、5、2、3、4、1、2、2、4、3

  1. 计算样本的均值

x̅=ΣX/N
=(1+5+2+3+4+1+2+2+4+3)/10
=2.7

  1. 计算样本标准差s

s=1.2689

  1. 计算均值的标准误的估计值Sx̅

Sx̅=第六章 样本、总体、均值的抽样分布与置信区间 - 图25
=1.2689/3
=0.423

  1. 查表求t值

α=0.05,df=10-1=9
查表得t=2.262

  1. 求误差范围

误差范围= t Sx̅ = 2.262 0.423 = 0.96

  1. 求置信区间

95%的置信区间 = 样本均值 ± 误差范围 = 2.7 ± 0.96 = 1.74~3.66


6.5 总体比例π的置信区间

点击查看【bilibili】

1. 总体比例π

例:假如东华大学对学生的一次普查(假如总人数为10000人)。得知有65%的学生赞成“取消四六级考试”,有35%不赞成或不表示意见。在调查中,对”赞成”的学生给予1的值,否则给予0的值。
求总体中”赞成”的比例π、总体均值、总体方差

赞成与否 人数 百分比
1 6500 65%
0 3500 35%

image.png
总结规律:
当总体的取值只有0和1两种情况时,取1的比例为π,则

  • 总体均值μ=总体的比例π
  • 总体方差σ2=π(1-π)
  • 总体标准差第六章 样本、总体、均值的抽样分布与置信区间 - 图27

2. 样本比例P

当随机地抽取10位学生进行调查时,得到样本值为1,0,0,1,1,1,0,1,1,1。
求样本中”赞成”的比例、样本的均值、方差、标准差。

赞成与否 人数 百分比
1 7 70%
0 3 30%
  • 样本中“赞成”的比例P=7/10=0.7
  • 样本的均值**x̅=(17+03)/10=0.7,因此可知**x̅=P

image.png

3. 比例的标准误S

image.png
image.png

4. 比例的抽样分布

  • 比例的抽样分布近似正态分布
  • 均值为总体比例π,标准误为S
  • 用样本比例P去估算π的95%的置信区间=P±1.96S=第六章 样本、总体、均值的抽样分布与置信区间 - 图31

    拓展:Z分布中,置信度与对应的Z值 95%对应1.9690%对应1.64

例:假设本地的一家调查组织通过电话联系了400名本地的登记选民,询问他们倾向于投票给候选人A还是B。
假设有60%报告他们将投票给候选人A。现在让我们从标准误、误差范围和比例的95%置信区间来说明对候选人A的倾向。

分析:如果95%的置信区间内的支持率都在50%以上,也就是置信区间最小值都高于50%,则说明A当选。
解答:

  1. 计算比例的标准误S

第六章 样本、总体、均值的抽样分布与置信区间 - 图32

  1. 计算误差范围1.96S

第六章 样本、总体、均值的抽样分布与置信区间 - 图33

  1. 样本比例加减误差范围来计算置信区间

95%置信区间=第六章 样本、总体、均值的抽样分布与置信区间 - 图34=0.552~0.648


6.6 用spss看置信区间与标准误

分析-描述统计-探索-选择因变量-statics
image.png
结果如下所示
image.png