- 1)描述性统计
- 1.1)四种测量尺度
- 1.2)均值
- 1.3)中位数 | 众数
- 1.4)极差 | 标准差
- 样本方差:
- %5E2%0A%5Cover%20n-1%0A%5Cend%7Bequation%7D%7D%0A#card=math&code=S%5E2%3D%0A%7B%5Cbegin%7Bequation%7D%0A%5Csum_%7Bi%3D1%7D%5En%28x_i-%5Cbar%7Bx%7D%29%5E2%0A%5Cover%20n-1%0A%5Cend%7Bequation%7D%7D%0A&id=cszff)">
%5E2%0A%5Cover%20n-1%0A%5Cend%7Bequation%7D%7D%0A#card=math&code=S%5E2%3D%0A%7B%5Cbegin%7Bequation%7D%0A%5Csum_%7Bi%3D1%7D%5En%28x_i-%5Cbar%7Bx%7D%29%5E2%0A%5Cover%20n-1%0A%5Cend%7Bequation%7D%7D%0A&id=cszff)
- 母体方差:
- 1.5)离散程度的测度指标
- 小结
- 2)推断性统计
- 3)假设检验
- 4)抽样方法
- 5)假设检验方法
- 假设检验结论:
基础统计
- 基础统计
- 第一模块
- 学习各种检验方法
- 描述统计\总体推断\抽样方法\卡方检验\T检验\方差检验
- 指标分析
- 第二模块
- 项目案例
- 第三模块
描述统计
分析过去的数据来预测未来,通过分析过去变化的规律,总结过去变化的原因,来得出对未来事件发生趋势的预测。统计学的本质就是通过样本来推断总体的趋势。
描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
1、数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。
- 2、数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
- 3、数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
- 4、数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
- 5、绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等。
推断性统计
- 在描述性统计的基础上对数据进行估计或者检验,研究如何利用样本数据来推断总体特征的统计方法。
1)描述性统计
1.1)四种测量尺度
- 定类
- 定序
- 定距
- 定比
定类
这种尺度下的变量的取值只做分类的作用,例如性别、将人群分类。
定序
除了有分类的作用还有排序的功能。定序尺度又称顺序尺度,它是对事物之间等级差或顺序差别的一种测度。
定距
温度
定距尺度是对事物类别或次序之间间距的测度,该尺度通常使用自然或物理单位作为计量尺度,如收入用“元”、考试成绩用”分”、温度用”度”、重量用”克”、长度用”米”,等等。因此,定距尺度的计量结果表现为数值。由于这种尺度的每一间隔都是相等的,只要给出一个度量单位,就可以准确地指出两个计数之间的差值。
定比
分类\排序\加减\乘除:比如年龄。
定比尺度是类似于定距尺度、但又高于定距尺度的一种计量方法。两者的主要区别在于“0”的涵义。在定距尺度中,“0”表示一个有特定内涵的数值,不表示“没有”,在定比尺度中,“0”表示“没有”或该事物不存在未发生。
数分领域一般划分,定类与定序合称为分类变量(离散变量),定距与定比合称为连续变量。
分类:只能用频次统计
连续:既可以用频次也可以用均值标准差等。
1.2)均值
平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供信息。
基本概念:1、算术平均。2、几何平均。3、调和平均。4、调整平均。
算术平均
- 算术平均 = 数据的合计÷数据的个数
- 最基本、最常用的一种平均指标,主要适用于数值型数据
- 加权平均
- 几何平均
- 几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。
调和平均
调整平均。
- 从上限值和下限值中去掉一定比例的数据后剩下的数据的算术平均。
- 在协方差分析中,从处理组平均数中扣除协变量的回归效应后所得的值。
- 可以去除一定比例的最大值和最小值(5%),因为可能是异常值。
几何平均运用到增长率这样的场景,连续多年的增长比率,复增长率。当数值大量集中在最小值附近的时候可以使用调和平均,可以对于取值较小的数值比较有代表性。
1.3)中位数 | 众数
- 概念
- 中位数:
- 通过把所有观察值按高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
- 中位数是一组数据中间位置的代表值。计算简单,不受极端值的影响,但不能充分利用每个数据所提供的信息。
- 应用场合:有极端值,且无某数据重复出现多次的情况下集中趋势的刻画。
- 四分位数
- 1、第一四分位数,数值低于第一四分位数的是样本数据中最低的25%的数据。
- 2、第二四分位数,第二四分位数为整组数据的中位数。
- 3、第三四分位数,数值高于第三四分位数的是样本数据中最高的25%的数据。
- 4、大于第三个四分位数点的是最高的25%部分。
- 四分位数
- 众数:
- 众数是一组数据中出现次数最多的数据、峰值。不受极端值的影响,其缺点是具有不唯一性。 当一组数据中苛些数据多次重复出现时,众数往往是人们最关心的一个量。但它不能象平均数那样充分利用数据提供信息。
- 应用场合:有极端值,有某些数据多次重复出现时。
- 中位数:
1.4)极差 | 标准差
极差:衡量样本离散程度。最大值减去最小值的差值。
它反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。如在数学考试中,一个班学生得分的极差为60,反映了学习最好的学生与学习最差的学生得分差距为60。
样本方差:
%5E2%0A%5Cover%20n-1%0A%5Cend%7Bequation%7D%7D%0A#card=math&code=S%5E2%3D%0A%7B%5Cbegin%7Bequation%7D%0A%5Csum_%7Bi%3D1%7D%5En%28x_i-%5Cbar%7Bx%7D%29%5E2%0A%5Cover%20n-1%0A%5Cend%7Bequation%7D%7D%0A&id=cszff)
母体方差:
%5E2%7D%7Bn%7D%0A#card=math&code=%5Csigma%5E2%3D%5Ccfrac%7B%5Csum_%7Bi%3D1%7D%5En%28x-%5Cbar%7Bx%7D%29%5E2%7D%7Bn%7D%0A&id=WkbIx)
import numpy as np
import stats as sts
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
43, 25, 24, 23, 24, 44, 23, 14, 52,32,
42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#集中趋势的度量
print('求和:',np.sum(scores))
print('个数:',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.25))
print('下四分位数',sts.quantile(scores,p=0.75))
#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('极差:',np.max(scores)-np.min(scores))
print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
print('标准差:',np.std(scores))
print('方差:',np.var(scores))
print('离散系数:',np.std(scores)/np.mean(scores))
#偏度与峰度的度量
print('偏度:',sts.skewness(scores))
print('峰度:',sts.kurtosis(scores))
标准差
标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。说起标准差首先得搞清楚它出现的目的。
我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。
虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。
1.5)离散程度的测度指标
数据的离散趋势代表了数据中包含的信息量。
1、极差
极差又称全距,是观测变量的最大取值与最小取值之间的离差,也就是观测变量的最大观测值与最小观测值之间的区间跨度。极差的计算公式为:
**_R_= _Max_(_xi_) − _Min_(_xi_)**
2、平均差
平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。
3、标准差
标准差表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差受到极值的影响。
标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个测验测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。
标准误差表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误差代表的就是当前的样本对总体数据的估计,标准误差代表的就是样本均数与总体均数的相对误差。标准误差是由样本的标准差除以样本容量的开平方来计算的。从这里可以看到,标准误差更大的是受到样本容量的影响。样本容量越大,标准误差越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。
如果希望比较两组数据的离散趋势,则不能直接使用标准差,因为两组数据的量杠不同,通常需要使用离散系数进行比较。
离散系数:即变异系数,针对不同数据样本的标准差和方差,因数据衡量单位不同其结果自然无法直接进行对比,为出具一个相同的衡量指标,则进行了离散系数的计算。离散系数为一组数据的标准差与平均数之比。
其他的离散值衡量指标:标准差,离散系数,离散平方和,商 。
小结
描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。简而言之就是使用一些方法对数据进行初步浅显的处理得出初步的结论,为下一步推断性统计夯实基础。
2)推断性统计
- 抽样误差、标准误差
- T分布
- 参数估计
- 假设检验
四种方法呈现出递进关系。
2.1.1)两大定理:大数定律 | 中心极限定理
-
- 样本N越大,样本均值必然等于总体均值。
- 在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
抽样误差:
由于个体变异产生的,抽样造成的样本统计量与总体参数的差别。
原因:
抽样方法。
个体差异。
标准误差:
表示样本统计量抽样误差大小的统计量。
公式:
整体标准误:
样本标准误
2.1.3)T分布
用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
自由度:通俗理解就是样本量,当自由度趋向于无穷大的时候,t 分布趋近于标准正态分布。
t分布特征:
- 以0为中心,左右对称的单峰分布;
- t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线
- 随着自由度逐渐增大,t分布逐渐接近标准正态分布。
通过总体数据分布来估计样本误差 (如果服从T分布则使用T检验)
z值转换公式,用来将t分布和转换为z分布,又称为标准化或Z值标准化
Z就是正态分布。
excel函数 :TIVN (概率值求t值)/ TDIST(t值求概率值)
2.2)参数估计
定义:用样本统计量推断总体参数。
2.2.1)点估计
用相应样本统计量直接作为总体参数的估计值。
2.2.2)区间估计
按预先给定的概率所确定的包含未知总体参数的一个范围。
依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。
3)假设检验
又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。
目的:
基本思想—小概率反证法
假设检验的基本思想是“小概率事件”原理,其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。即为了检验一个假设H0是否正确,首先假定该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝假设H0,否则应接受假设H0。
假设检验中所谓“小概率事件”,并非逻辑中的绝对矛盾,而是基于人们在实践中广泛采用的原则,即小概率事件在一次试验中是几乎不发生的,但概率小到什么程度才能算作“小概率事件”,显然,“小概率事件”的概率越小,否定原假设H0就越有说服力,常记这个概率值为α(0<α<1),称为检验的显著性水平。对于不同的问题,检验的显著性水平α不一定相同,一般认为,事件发生的概率小于0.1、0.05或0.01等,即“小概率事件”
步骤
- 提出检验假设又称无效假设,符号是H0;备择假设的符号是H1。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的;
H1:样本与总体或样本与样本间存在本质差异;
- 预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01 。
- 选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
- 根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。
注意问题
- 假设检验是针对总体而言,而不是针对样本。
- H0和H1是相互联系,对立存在,二者缺一不可。
- H1直接反映了检验的单双侧,需要考虑有无差异还是差异的方向。
- 双侧检验较为保守,是否定为单侧检验需结合专业知识来判断。
1、作假设检验之前,应注意资料本身是否有可比性 。 2、当差别有统计学意义时应注意这样的差别在实际应用中有无意义 。 3、根据资料类型和特点选用正确的假设检验方法 。 4、根据专业及经验确定是选用单侧检验还是双侧检验 。 5、判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性 。
两类错误
第一类错误:原假设H0正确,而检验结果把它否定了,叫做弃真错误。
第二类错误:原假设H0不正确,而检验结果把它肯定了,叫做取伪错误。
显著性水平α:犯第一类错误的最大概率。
4)抽样方法
概念和意义
又称取样。从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。抽样的目的是**从被抽取样品单位的分析、研究结果来估计和推断全部样品特性**,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。
因为全量数据处理起来时间和金钱成本太过高昂,所以使用抽样来推断总体特性。
普查:
普查是调查的全体调查对象,想要获得全体调查对象的信息,没有抽样的必要性。
抽样调查:
调查部分对象,获取调查对象的总体特征,有抽样的必要性。
非抽样调查:
获取部分调查对象的情况,没有抽样的必要性。
抽样方法
有调查对象总体清单
没有调查对象总体清单
抽样调查与普查
抽样:
- 花费较少
- 效率较高能够快速获取信息
- 时效性很重要,抽样能够在很快的时间内获取想要的信息来进行推断
- 总体太大实际上无法进行普查
- 个别对象难以接触
- 科学地抽样样本具有代表性——可控制抽样误差
普查:
非抽样误差(不可控)
- 非抽样误差是指除抽样误差外,由于人为的差错引起的误差,也叫偏差
- 问题的定义、处理问题的途径、量表问卷中问题的设计、访问的方法、实施的质量控制、数据处理和分析的失当都会造成非抽样误差。
- 非抽样误差包括研究员、访问员、被访者三方面的误差
- 为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之最小化
抽样误差(可控)
由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全局指标的绝对离差。必须指出,抽样误差不同于登记误差,登记误差是在调查过程中由于观察、登记、测量、计算上的差错所引起的误差,是所有统计调查都可能发生的。抽样误差不是由调查失误所引起的,而是随机抽样所特有的误差。
抽样过程
两个基本原则
- 实现抽样的随机性原则
- 等概率或者不等概率
- 尽量做到等概率抽样
- 实现抽样效果最佳原则
- 固定费用,抽样误差最小
- 确定精度下,调查费用最小
抽样单元
在抽样的过程中,每一个阶段所选取的元素或者元素的集合,称为抽样单元(sampling unit)。
抽样单元是指构成总体的个体要素,也是构成抽样框的基本要素。抽样单元可以只包含一个个体,也可以是包括若干个个体的群体,抽样单元还可以分级。抽样单元可大可小,可以分级,可分为一级抽样单元、二级抽样单元、基本抽样单元(最小一级抽样单元)。
抽样框
抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
为了抽样的方便,常需要一份包含所有单元的名单或清册,这样的名单或清册称为抽样框。在抽样框中,每个抽样单元都被编上一个号码,由此可以按一定的随机化程序进行抽样。在抽样完成后,抽样者也可以根据抽样框找到具体抽样单元,从而实施调查。抽样框的形式是多样的,除了上面提到的名单或清册,也可以是一张地图或其他适当的形式。
一般把抽样框分为三种:名录抽样框、区域抽样框、自然抽样框。不管怎样,抽样框中的抽样单元必须是有序的,便于编号。而且原则上抽样框中的抽样单元既不能重复,也不能有遗漏。
抽样单元与抽样框的关系:
抽样框与抽样单元是抽样的一对基本范畴。其单元满足“与实际总体的每个单元之间存在确定的对应关系,凭借这种对应关系可以找到实际总体中特定的一个或一些单元”条件的实际总体的映射总体称为抽样框,构成映射总体的单元则称为抽样单元。
【例】抽样单元可以包含若干个个体,如调查大学生生活费支出情况时,我们以班级为抽样单元,则班级的每一个学生就是基本单元。把这种抽样推广之,在整群抽样中,抽样单元是群,群内包含了相当多的基本单元。
抽样样式
非概率抽样
所有的样本单位出现的机会是不确定的,不能计算每个样本单位所出现概率,因为选择样本的方法是随机的。
- 方便抽样:会议、街头、商场问卷调查方式。
- 判断抽样:依据研究者主观判断,选取可代表总体的个体作为样本。
- 配额抽样:按照调查对象的某种属性或特征,将总体中所有的个体分类,然后按照一定比例分别抽取样本。配额抽样有可能接近概率抽样的结果、前提是各类群同质,无需随机抽样,类型划分合理,配额抽样符合总体中各类型的分布。
- 滚雪球抽样:又称裙带抽样,推荐抽样,是一种在稀疏总体中寻找受访者的抽样方法,在实际当中应用在特殊群体中,比如同性恋人群,通过一个个人的推荐来获得信息数据。
概率抽样
按照随机/概率规律的原则,从中总体中抽取样本,可以对总体进行推断。
- 等概率抽样:所有样本单位出现的机会是相同的。
- 不登概率抽样:可以计算每个样本单位所出现的概率。
简单随机抽样
对所有调查对编号,据此从名册中进行随机抽样的方法。在可以对所有调查对象进行编号的情况下所使用的方法。通过查随机数表等方法,随机地抽取调查对象的号码。
当总体不太大,或总体单元的元素有完备的名单时,简单随机抽样非常适用。
系统抽样(等距抽样)
先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元,这类抽样方法被称为等距抽样(Systematic Sampling)。等距抽样又称为机械抽样、系统抽样。等距抽样往往不能给出估计量的估计方差。
PPS 抽样
按规模大小成比例的概率抽样,简称为PPS抽样,它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。其抽选样本的方法有汉森-赫维茨方法、拉希里方法等。
PPS 抽样是指按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。
分层抽样
也叫类型抽样。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。
原则: 层内差异小,层间空间大。
分层抽样的特点:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
各层样本数的确定方法有3种:
- 分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1 即为样本比例,每层均按这个比例确定该层样本数。
- 奈曼法。即各层应抽样本数与该层总体数及其标准差的积成正比。
- 非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。但这样做会增加推论的复杂性。
区域抽样、时间抽样和随机电话号码抽样
区域抽样是群体抽样的一种形式,样本空间按区域进行划分,选定某抽样区域,如一个县、一个行政区、一个街区,从中确定调查对象。
特征:在没有调查对象清单的访问调查中使用。
优点:1、没有居民基本登记名册,也可以实施访问调查。2、便于寻找通过外表即可看出是否符合条件的家庭住户(有院子的家庭、有车子的家庭)
缺点:有可能偏向经常在家的调查对象无法从外表看出是否符合条件和以个人为对象进行调查时,效率低下。
时间抽样
按照时间间隔进行人的时间抽样,以及通过随机数造出电话号码进行调查的RDD等。
概念:时间抽样是指,比如,从50个行人中邀请1人接受调查时所使用的抽样。由于不清楚调查总体的情况,所以不能计算抽样比。但是,只要样本量足够大,并尽量按相等的抽样间隔进行抽样,就可以保证样本的代表性。为了使样本具有代表性,从经验上讲,样本量需要500人以上、最好能达到1000人。
如果事先测定好调查地点从周一到周日各天不同时间段的行人数量,对于确定所需的访问员人数、抽样间隔和调查结果回收目标人数会有较大的帮助。例如,如果用不同调查地点的行人数除以调查结果回收目标人数,就能计算出每隔多少人邀请1个人接受访问为好。
当事先观察到的不同时间段的行人数,以及不同时间段的回收样本构成和实际情况不相符时,则还要通过“加权”对统计结果进行调整。
特征:必须考虑在不同的时间段,抽样比也要有所不同。
优点:不需要名册。
缺点:调查总体的人数不清楚。
5)假设检验方法
假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立。
假设是否正确,要用从总体中抽出的样本进行检验,与此有关的理论和方法,构成假设检验的内容。设A是关于总体分布的一项命题,所有使命题A成立的总体分布构成一个集合_h_0,称为原假设(常简称假设)。
使命题A不成立的所有总体分布构成另一个集合_h_1,称为备择假设。如果_h_0可以通过有限个实参数来描述,则称为参数假设,否则称为非参数假设(见非参数统计)。如果_h_0(或_h_1)只包含一个分布,则称原假设(或备择假设)为简单假设,否则为复合假设。
对一个假设h_0进行检验,就是要制定一个规则,使得有了样本以后,根据这规则可以决定是接受它(承认命题_A正确),还是拒绝它(否认命题A正确)。这样,所有可能的样本所组成的空间(称样本空间)被划分为两部分HA和HR(HA的补集),当样本x∈HA时,接受假设h_0;当_x∈HR时,拒绝_h_0。集合HR常称为检验的拒绝域,HA称为接受域。因此选定一个检验法,也就是选定一个拒绝域,故常把检验法本身与拒绝域HR等同起来。
非参数检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
非参数检验:在总体分布未知或知之甚少的情况下,利用样本数据对总体分布形态等进行推断的方法,由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因为得名非参数检验。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
适用于不知道总体参数的检验。
卡方检验方法
使用场景:检验所有类别是否包含相同频率或用户指定比例一致。
二项式检验方法
使用场景:检验二分类变量(0,1)的两个类别的观察频率与指定概率参数的二项式分布下的期望频率是否一致。
检验一个变量取二分类两个值的概率是否符合设定的频率。
在生活中有很多数据的取值是二值的,例如,人群可以分成男性和女性,产品可以分成合格和不合格,学生可以分成三好学生和非三好学生,投掷硬币实验的结果可以分成出现正面和出现反面等。通常将这样的二值分别用1或0表示。如果进行n次相同的实验,则出现两类(1或0)的次数可以用 离散型随机变量X来描述。如果随机变量X为1的 概率设为P,则随机变量X值为0的概率Q便等于1-P,形成二项分布。
SPSS的 二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布,其原假设是:样本来自的总体与指定的二项分布无显著差异。
从某产品中随机抽取23个 样品进行检测并得到检测结果。用1表示一级品,用0表示非一级品。根据抽样结果验证该批产品的一级品率是否为90%。
显著性水平
显著性是对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,一类是随机差异。它是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。
显著性水平 = 大概率事件出错的概率。
eg: 明天大概率会下雨,大概率大概是95%,那么显著性水平就是0.05
常见单样本非参数检验方法
K-S检验
柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov test),简称K-S检验;
将变量的观察累积分布函数与指定理论分布进行比较,该理论分布可以是正态分布、均匀分布、泊松分布或 指数分布。
许多参数检验都需要正态分布的变量。单样本Kolmogprov-Smirnov检验可用于检验变量(例如income)是否为正态分布。
K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种 拟合优度的检验方法,适用于探索 连续型随机变量的分布。
例如,收集一批周岁儿童身高的数据,需利用样本数据推断周岁儿童总体的身高是否服从 正态分布。再例如,利用收集的住房状况调查的样本数据,分析家庭人均住房面积是否服从正态分布。
游程检验
检验某一变量的两个值的出现顺序是否随机,游程是相似的观察值的一个序列,游程太多或太少的样本不是随机样本。
游程检验的本质:首先,变量的类型必须为二分变量,例如性别变量,只有二个数组成的变量。然后,游程检验的分析目的是用于判断观察值的顺序是否随机。这一点非常重要,因为,许多遇到的实际问题中并不只是使研究者关心分布的位置或者形状,也包括样本的随机性。如果样本不是从总体中随机抽取的,则所做的任何推断都将没有价值。游程检验是最简单的判断随机性的方法。
做一个掷硬币试验,以概率 P 得正面,以概率 1-P 得反面,用数字“0”记正面, 用数字“1”记反面。不太可能出现多个 0 或多个 1 连续地连在一起,也不太可能 0 和 1 交替频繁地出现。假如做这样的试验 30 次,得到如下试验记录:
000011100000110000011111100000
如果称连在一起的 0 或连在一起的1 为一个游程,则上面的例子中有4 个 0 游程和3 个 1 游程, 共 7 个游程(R=7)。
独立样本/配对样本(非参数检验)
独立:两组不同不重叠的样本,比如男性女性。在收入、年龄等分布上是否有差异。检验不同人群在特定变量取值上是否有差异。
注意:分类变量是分类变量,比较变量是连续变量。
配对:同一组人群不同时间采集的两组或多组数据/同一组人不同身体部位采集的两组或多组数据。
检验同一组人群在不同时间采集的数据是否有差异。
假设检验结论:
P<0.5 研究假设成立
P>0.5研究假设不成立。