Linear Ensembles of Word Embedding Models

要点

我觉得本文可以归类到 word meta-embedding, 因为都是基于多个预训练好的 word embeddings 来生成一个更好的 word embedding, 但是作者说: 不, 我们不一样. 有点牵强的两个区别:

从第一点来看, 本文的初衷就像是通过降噪(不同word embeddings之间随机性误差)的方式来提升 word representations, 而算法在语料上捕获的有用的信息就沉淀下来了.

本文的大致思路可以用以下三个公式来概括:

最小化 target word embedding (Y) 与预训练的 word embeddings 的线性转换(WP) 的欧式距离;

用 WP 的均值来更新 Y;

以上是一个无限循环的过程, 用下式来控制结束, 当它小于阈值, 就停止.

文章的重点在于如何求取线性转换矩阵 P, 提供了两种思路:

由于 Y=PW 用普通最小二乘法(Ordinary Least Squares, OLS)可以得到解析解, 作者首先就用了该方法: $P=(W^{T} W)^{-1} W^{T} Y$. 该方法的问题在于, Y 和 WP 可能会趋向于 0, 从而导致无效解. 作者的解决办法是, 每个循环, 先对 Y 进行缩放(rescale), 使每一列的方法等于 1;
第二种方法将问题看作一个 Orthogonal Procrustes 问题, 有正交性限制, 要求 $PP^{T}=P^{T}P=I$. 该方法同样有解析解, 过程比 OLS 要复杂, 具体如下:
首先计算: $S=W^{T}Y$;
使用 SVD 进行对角化: $S^{T}S=VD{S}V^{T}$, $SS^{T}=UD{S}U^{T}$;
最后 $P=UV^{T}$.

方法 2 的好处在于, 正交性限制保留了 WP 中向量的模与向量间的角度, 也不用担心收敛到 0.

实验显示, 方法 2 得到的 word embedding 各方面都好得多, 就不一一描述了.

我们已经知道使用集成方法(ensemble method)时, 模型的差异越明显, 互补性就越强. 本文的启示是, 就 word embeddings (或其他类似问题), 正交性限制的重要性.

Last updated 5 years ago

Was this helpful?