Snapshot Ensembles: Train 1, get M for free
PreviousMulti-Task Deep Neural Networks for Natural Language UnderstandingNextEDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
Last updated
Last updated
论文地址: https://openreview.net/pdf?id=BJYwwY9ll
本文利用了神经网络多局部最优点的特点, 在承认局部最优点价值的基础上, 保存每一次到达局部最优点时的模型(称为 snapshot), 测试阶段通过集成多个局部最优模型来取得更好的结果.
该方法能成功的原因有以下几点:
神经网络多凸, 多局部最优点的特性
SGD 具有跳出局部最优困境的能力
为确保模型能跳出局部最优困境, 文章使用了 SGDR, 即时不时地突然放大学习率; 此外, 为了尽快探索更多的局部最优点, 使用了 Cyclic Annealing, 在每个 cycle (由多个 epoch 组成) 中, 快速地减小学习率, 以达到快速收敛至局部最优点的目的. 两种技术的结合, 使得训练时, loss 成下图中红色曲线般变化: