- 显著性水平:发生小概率事件的概率,即黑天鹅事件,用α表示,一般为0.05。
AB试验中的假设检验
假设检验的核心逻辑是用否定法,去否定一个错误的命题,那么这个命题只能是正确的。
eg:现在我们认为一个罪犯是无罪的,那么我们只需要证明他有罪即可推翻原假设,即罪犯无罪。
对于原假设提出的这个命题,我们需要做出判断,用“原假设正确”/“原假设错误”来表述。而对于假设的判断也有正确和错误之分,一般有两种类型:弃真错误、取伪错误。
I 类错误:弃真错误。H0为真,却被我们拒绝,犯这种错误的概率用α表示。
II 类错误:取伪错误。H0为假。我们却没有拒绝,犯这种错误的概率用β表示。
在实际中首先要控制弃真错误的概率,即α概率, 原因主要在于,从实用的观点来看,原假设是什么常常是明确的,而备择假设的什么常常是模糊的。
ABtest八大问
quesiton
- 什么场景可以用AB试验
- AB试验的底层逻辑是什么
- AB试验打算观察20天,但到中间10天的时候就感觉数据对比明显显著,这是可以停止试验吗
- AB试验如何选择试验城市
- 如何确定分流时机
- AB试验的时候,数据对比25%判定为效果显著,但上线后效果不好,为什么
- 统计上显著但上线后业务不显著,为什么
- 什么场景不可以用AB试验AB试验是万能的吗
answer
- 围绕两点回答:产品迭代、策略优化。
产品迭代:比如界面优化、功能增加、流程增加
策略优化:无论是运营策略还是算法策略都可以通过AB试验的方式验证策略是否达到预期目标。 问题的变式(为什么要做AB试验,AB试验背后的科学依据是什么)
这个问题主要考察统计学知识,以及AB试验获得业界认可的科学依据。
1 :随机化。AB试验通过随机化的处理使得所有影响tretmet到effeat的混杂因子失效,简单理解就是随机化使全部的外在干扰因素都失效了,tretmet成为了产生差异的唯一来源。
2:假设检验。对样本提出一个假设,检验这个假设是否准确,本质上来说假设检验就是根据构造的样本统计量所符合的统计学理论分布,采用小概率理论来推断假设是否准确,如果原假设发生概率较大则接受原假设,如果原假设为小概率事件则拒绝原假设,接受除与原假设以外的其他情况。步骤:
- 提出假设:把H0\H1讲清楚(原理、过程)
- 构造统计量
- 接受\拒绝H0
问题的变式(AB实验需要多大的样本,AB实验需要做多久是如何确定的)
这个问题主要考察如何确定样本量,一个中心,两个基本点。
一个中心 :记住样本量的公式,理解公式里各项的代表含义。
两个基本点:1. 计算出的样本量是每个组的最低样本量。2. 样本量可以累积,实验时间可以用(需要样本量\每天产生的样本量)来计算。- 选择城市问题。
先回答为什么在局部城市做实验而不是全部城市。这个回答是前提,原因有2:
1. 有些实验可能存在负向影响,为了控制影响范围,要找部分城市试点。
2. 每个城市特性差异大,全国上线城市间的差异被平均化了,不能看出真实的策略效果。
接着回答如何选择城市,2个原则:
1. 尽量选择大城市,小体量城市样本量小, 需要更长的试验周期。
2. 试验时要选择不同类型的城市,试验策略可能对不同类型的城市有不同的效果,需要通过选择不同的城市使试验具有普适性。
补充:一般公司都会有一个城市分级,会依据城市的不同属性分级,一、二、三级不等,不同公司的分级标准也不同,使用自己公司的标准即可。 - 考察随机化。
随机化的解释:样本的选择不是主观意志决定的,而是通过随机化方式取得。为什么使用随机化,因为抽取样本的目的是用样本来描述总体,样本要能代表总体,随机化能保证不同策略下的实验对象特征有相同的分布,为统计推断提供基础。同时随机化避免了主观因素可能对策略分配的影响。 - 实验效果好,上线效果不好。从两个方面分析。
一、检查AB实验科学性,AB实验的流程和步骤是否科学且合理。
常见的问题:
1. 样本量不足。样本量小结果是随机波动导致,不可置信。
2. 实验时间太短,在观测实验结果时要小心“新奇效应”也就是实验时间过短的情况下,用户由于新鲜感而表现出的不可持续行为,观测实验结果下定论需要等实验结果稳健以后进行。
3. 实验人群≠上线人群,实验城市不同,实验对象不同可能会引起的策略效果差异,所以做实验时应该尽量保证样本与总体一致。
二、检查外部环境。
环境的差异也会导致效果的不一致。比如产品实验时候用户使用时的天气。
- 考察统计显著和业务显著的理解,即统计学功底和对业务的认知能力。
统计显著:本质是通过假设检验的方法来看两组样本数据是否是一个小概率事件。
业务显著:策略是否有足够的增长,是否具有商业价值,即对业务的判断和理解。 - 比较大众的场景。
- 用户体验制约
- 样本数量较多
- AB存在组间干扰
八个问题环环相扣,主要还是考察统计学知识和业务认知,对于统计学知识点的要求较高。尤其是假设检验的原理,公式推导倒是其次。