https://www.usablestats.com/tutorials/CI
在本教程中,您将学习以下概念:
1. 什么是余量或误差。 1. 什么是置信区间(Confidence Intervals )。 1. 误差范围(Margin of Error)和置信区间之间的关系。 1. 置信度与置信区间的关系 1. 变异性如何影响置信区间 1. 为什么较小的样本会产生较大的置信区间。 |
---|
1.什么是余量或误差
在对1000名合格选民进行投票之后,《星报》报纸报道说,有55%的美国人将投票支持詹姆斯·比恩,而45%的人将投票给约翰·F·丹尼尔斯(John F Daniels)+/- 3%。该正负免责声明是误差范围。
该正负免责声明是误差范围。换句话说,误差幅度意味着James Bean可能会受到58%至42%(55 + 3)或低至52%至48%(55-3)的青睐-六个百分点的差距(58 -52 = 6)。这个价差是**置信区间**。
置信区间,下图所示:
负误差:
2.什么是置信区间(Confidence Intervals )
较少的样本比较多的样本变化更大。
样本越小,响应将越可变,误差范围也越大。
假设投票给吉姆55%,约翰投45%,而《星光论坛》只问了5个人而不是1000人。
假设他们参加了6次投票。结果可能看起来像这样:
**
如果报纸只报道5个人的结果,那他们可能就遥遥无期了,根本得不到预期的结果:55%比45%。
重要的一点:随着样本变大,可变性下降:较大的样本具有较小的误差范围(可变性较小),较小的样本具有较高的误差范围(较大可变性)。这一点将继续以置信区间出现。
置信区间与样本量的关系:
置信区间 ::误差幅度测验( Margin of Error Quiz)
置信区间简介::错误率更高
置信水平为95%(A confidence level of 95%)意味着100倍的样本百分比中有95个将落入置信区间内。或100中的5百分比不会落入置信区间内。
现在,如果您曾经听过新闻说比赛太接近了,或者存在“统计上的平局”,那是因为两个置信区间的宽度重叠得足够多,以至于没有明确的领导者。那是什么意思?想象一下,接受《星论坛报》(Star-Tribune News)进行的民意调查的人要少得多,现在的误差幅度为+/- 6%。下图显示了这种新的关系。
注意置信区间的一部分有重叠。约翰丹尼尔(John Daniel)的45%顶部的+/- 6%误差幅度与吉姆·比恩(Jim Bean)的55%的6%重叠。这意味着,如果要再次进行民意调查,那么约翰丹尼尔斯很有可能会在民意调查中领先吉姆·比恩。机会有多大?要知道您需要了解置信度。
置信区间简介::置信度
置信水平为95%意味着100倍的样本百分比中有95个将落入置信区间内。或100中的5百分比不会落在置信区间内。
因此,如果“星际论坛报”以95%的置信度进行了100次相同的民意调查,误差率为6%,那么我们预计其中约5项民意调查将显示吉姆·比恩拥有超过61%的选票或少于49%的选票。
- 95%的可能,James Bean票数在49%~61%;
- 5%的可能,James Bean票数超过61%或小于49%;
为什么是95%?**
95%是最常见的置信度值,大多数情况下是按照惯例进行设置的(我认为5%似乎是一个合理的风险)。您可能希望将其降低到90%或85%或将其提高到99%,具体取决于错误的影响。
换句话说,如果您押注100个样本结果的下降幅度很大,那么您将要使用99%的置信度,而不是80%的置信度(除非您不介意20%的机会)的费用)。但是,要获得更精确的估计值需要付出代价,那就是更大的置信区间。
置信区间简介::置信水平与置信区间之间的关系
因此,随着**置信度=置信水平的提高,置信区间**会越来越宽。顺便说一句,没有什么可以阻止您拥有96%,91%甚至83.5%的置信度。这是另一个例子。
您要求12个用户在要测试可用性的网站上注册新闻通讯。您需要向正在考虑重新设计网站的营销团队报告平均时间。为12位用户计时之后,您平均报告80秒的置信区间。下图显示了置信区间如何根据所选的置信度而变化。
让我们假设他们想要保持一定的自信。在这种情况下,我认为90%的置信度就足够了。
您可以通过以下几种方式报告在12位用户的样本中观察到的范围。
- 平均时间为80秒,我们希望将来的样本有90%的时间落在69秒至91秒之间。
- 平均时间为80秒+/- 11秒(置信度为90%)。
- 平均时间为80秒,90%置信区间为69秒至91秒
如您所见,有几种短语表达方式。注意所有三个(隐式或显式)如何包含置信区间,误差范围和置信度吗?这三者对于使用置信区间评估陈述至关重要。
置信区间简介::样本的变异性
有三个区域会影响置信区间的宽度。
随着样本量的减少,置信区间变宽(样本量越小,越不准确,误差范围越宽)。随着置信度水平的提高,置信区间也会变宽(置信水平高,误差范围越宽)。猜猜还有什么?
随着您从中进行抽样的总体变异性的增加,样本的置信区间会越来越宽。
那么什么是人口变异性?在整个总体中,各个数据点之间的差异是多少。
假设您是否有时间在同一个Intranet应用程序的两个版本上测试所有20个版本(每个版本10个)。
您将有两个人口总数为10的用户。一个人使用版本1,一个人使用版本2(即使这些人在同一家公司彼此合作,但由于我们在不同版本的Intranet上对他们进行测量,因此他们处于不同的统计人群中)。
假设平均而言,两组10位用户花费了60秒来完成每个版本的Intranet应用程序的任务(请参见下文)。
哪一组时间的变异性更大?
请注意,第2版中的样本如何具有更零星的时间分布?与版本1相比,用户时间似乎无处不在。通常,当以视觉方式描绘数据时,您会很快注意到变化的差异。
置信区间简介::变异性影响置信区间
我们这样做是可以看到为什么变量更多的人(版本2)会产生更大的置信区间。
我们只从10个中选2个,但是这与您从1,000个中的10个或2.8亿中的1000个中选择时所应用的原理相同。样本的可变性将影响我们对均值真实值的最佳猜测,因此我们的置信区间将反映这一点。
接下来,我们将使用称为标准偏差的方法来研究计算变异性的机制。到目前为止,请记住,比起更大的可变性而言,更宽泛的置信区间。
**