Ablation study(消融研究、消融学习、消融实验)

原文链接:https://blog.csdn.net/flyfish1986/article/details/104812229

一文搞懂什么是ablation study (消融实验) - 知乎 (zhihu.com)

pkx6rLQ.png

Ablation study

今天阅读paper,遇到ablation study,ablation study可以译作:消融研究、消融学习、消融实验。那什么是ablation study,就查阅了一下,原来ablation study差不多就是初高中常说的控制实验变量方法。
比如说你为了提升baseline的性能,给它加了两个模块A,B,加完之后效果果然提高了很多。 于是你急急忙忙开始写论文,写到你的贡献,你给了两条:1.模块A,2.模块B。
但是这样写有个问题:尽管AB同时加上去对模型有提升效果,但是你并没有证明A、B两个模块分别都是有意义的,所以就需要用Ablation study来做更细致的研究。借用知乎上的易懂的描述ablation study就是:

1
2
3
4
为了提升baseline的性能,给它加了两个模块A,B 为了验证A、B两个模块是不是真的都有用,你需要做ablation study。
实验1:在baseline的基础上加上模块A,看效果。 实验2:在baseline的基础上加上模块B,看效果。
实验3:在baseline的基础上同时加上模块AB,看效果。 然后结果可能是,实验1和实验2的结果都不如实验3,那么说明AB都是有用的;
然而也有可能你会发现实验1的结果和实验3一样,甚至更好。这就说明你的想法是有问题的,模块B其实并没有起到作用,提升只来自于模块A。

注解

相当于遵守奥卡姆剃刀原则,如无必要,勿增实体即简单有效原理。切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。
简单和复杂的方法都能达到同样的效果,选择简单的方法。

应用延申

在机器学习,特别是复杂的深度神经网络的背景下,已经采用“消融研究”来描述去除网络的某些部分的过程,以便更好地理解网络的行为。
为了提升网络的性能,在网络架构上加了模块A,B。是这篇文章的创新点。
比如说这篇文章有3个亮点,消融实验就负责告诉你,实验1:我只加a结果如何;实验2:只加b结果如何;实验3:a和b都加了又如何。
看3个实验的效果,然后结果可能是,实验1和实验2的结果都不如实验3,那么说明AB都是有用的;
然而也有可能你会发现实验1的结果和实验3一样,甚至更好。这就说明你的想法是有问题的,模块B其实并没有起到作用,提升只来自于模块A。

简单和复杂的方法都能达到同样的效果,选择简单的方法。