法如其名, model distillation 将多个模型(也可以是一个大的模型)的知识(泛化能力)蒸馏(迁移)到一个小模型中. Data distillation 只用了一个模型, 图中的 model A, 这个模型被用来对同一条无标签数据的不同 transformations 进行预测, 结果再汇总成一个标签作为这条数据的标签, 我们假定这个标签是比较准确可信的, 再反过来用这样得到的数据来训练模型, 可以是这个模型本身(此时 student model 就是 model A), 也可以是一个新的模型. Data distillation 名称的由来, 就是它从数据的多个 copies 中蒸馏出了有价值的信息.