在读论文的时候读到一个研究方法叫 ablation study,即消融实验,想要弄懂这个概念。

    作者:SleepyBag
    链接:https://www.zhihu.com/question/60170398/answer/673961942
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    比如说你为了提升 baseline 的性能,给它加了两个模块 A,B,加完之后效果果然提高了很多。于是你急急忙忙开始写论文,写到你的贡献,你给了两条:1. 模块 A,2. 模块 B。但是这样写有个问题:尽管 AB 同时加上去对模型有提升效果,但是你并没有证明 A、B 两个模块分别都是有意义的。所以为了验证 A、B 两个模块是不是真的都有用,你需要做 ablation study。方法也很简单:
    在 baseline 的基础上加上模块 A,看效果。
    在 baseline 的基础上加上模块 B,看效果。
    在 baseline 的基础上同时加上模块 AB,看效果。
    然后结果可能是,实验 1 和实验 2 的结果都不如实验 3,那么说明 AB 都是有用的;然而也有可能你会发现实验 1 的结果和实验 3 一样,甚至更好。这就说明你的想法是有问题的,模块 B 其实并没有起到作用,提升只来自于模块 A。

    简单来讲就是控制变量,当模型非常复杂的时候,想要验证其中的一个结构是否 work,就只将去掉该结构的网络与加上该结构的网络所得到的结果进行对比,就是所谓的 ablation study。
    P.S. 根据奥卡姆剃刀原则,简单和复杂的方法能达到一样的效果,那么简单的方法更可靠。
    https://blog.csdn.net/weixin_38708130/article/details/90698508