1 简介
文章来源:2020-AAAI
文章主旨:本文利用LPP保留原始空间的局部信息来学习投影子空间,每一次投影后采用NCP与SP结合的SPL方法对目标域样本计算软标签,并以软标签为基准在下一次迭代时选择性地添加目标域样本到特征矩阵中。通过指定次数的迭代,实现无监督的领域适应。
2 详情
论文的方法框架如图所示:
2.1 Dimensionality Reduction
利用PCA对原始特征矩阵$X\in \mathbb{R}^{m\times n}$进行降维。由于PCA的降维是线性的,所以对降维后的$\tilde{X}$每一列向量实行$L_2$归一化,即$\tilde{x} \leftarrow \tilde{x}/ \Vert \tilde{x} \Vert_2$。
2.2 Domain Alignment
应用Supervised LPP学习一个保持原始空间局部结构的投影子空间:
其中$M_{ij}$是根据标签和伪标签生成的相似矩阵。当$y_i=y_j$时,$M_{ij}$值为1;否则其值为0。
在原LPP中有一段:“度矩阵$D$提供了一个对数据点的天然测度,即$D_{ii}$的值越大,那么对应的点$P^T\tilde{x}_i$就越重要”。这段话需要这样来理解,我们知道$D_{ii} = \sum_{j}M_{ij}$。其值越大说明它与其他点的关联越密切,也就越重要。为了凸显这个重要性,LPP施加了一个对$P$的列向量$p$约束$p^T\tilde{X}D\tilde{X}^Tp = 1$,其转化为矩阵形式即为:
然后考虑对投影矩阵$P$中的极大值添加正则化项:
那么结合(1)(2)(3)式,我们得到:
其中$L=D-M$。进一步,(4)式可化简为:
通过上式(5)求解$P$需要运用广义特征值分解:$Ap=\lambda B p$,其中A为n阶实对称矩阵,B为n阶实对称正定矩阵,$p_0,\dotsb,p_{m-1}$为P的列向量。在这里与(5)式对应的广义特征值分解为:
最后把按照对应特征值从大到小的顺序将特征向量$p$排列成$P$,这里所选择维度也就是所学习的子空间的维度。
2.3 Pseudo-Labeling
为目标域的样本打上的伪标签一般采用软标签的形式,因为错误的标签有时会导致模型在优化时
被错误引导。
下文简单比较了NCP、SP和本文提出的SPL方法。
2.3.1 Pseudo-Labeling via Nearest Class Prototype (NCP)
经过投影后,源域和目标域样本在子空间中的表示为:$z^s =P^T\tilde{x}^s$,$z^t =P^T\tilde{x}^t$。
然后对数据进行中心化:$z\leftarrow z -\bar{z}$,其中$\bar{z}$表示均值。
接着再次利用$L_2$正则化来提高不同类之间的分离性:$z\leftarrow z/\Vert z \Vert_2$。
之后对源域的每个类$y \in \mathcal{Y}$,以求均值的方式求出其原型的位置:
其中$\delta(y,y_i)=1$当且仅当$y=y_i$,否则为0。然后对类原型$\bar{z}_{y}^s$也实施一次$L_2$正则化。
最后通过计算高斯核函数作为条件概率,为目标域样本打上伪标签:
其中$\vert \mathcal{Y} \vert$表示类的个数。显然这里的伪标签是以软标签的形式存在的。
2.4.2 Pseudo-Labeling via Structured Prediction (SP)
NCP只考虑了源域样本的信息(以源域样本中心为类的原型),而没有利用目标域样本的内蕴结构。于是SP方法考虑对投影后的目标域样本$z^t$使用K-means来分离出$\vert \mathcal{Y} \vert$个类,其中初始化的中心点由(7)式来计算得出。之后利用最终得到的中心点$\bar{z}^t$与投影后的源域样本的均值点$\bar{z}^s$依次进行最近距离匹配,从而确定每个中心点$\bar{z}^t_y$的类别。最后通过计算条件概率给目标域样本打上软标签:
2.4.3 Iterative Learning with Selective Pseudo-Labeling (SPL)
可以看到NCP和SP分别以源域信息和目标域信息为基准来计算条件概率。于是SPL主张简单结合二者:
最终,$x^t$的伪标签被预测为:
此外,在学习投影矩阵的时候本文运用了一个技巧,即逐步添加目标域样本到特征矩阵$X$中。给定最大迭代次数$T$,第$k$次迭代时$X$中包含$kn_t/T$个目标域样本。为了避免某高概率类选择的样本太多,对每个伪标签$c\in \mathcal{Y}$样本按照最大概率排序选择前$kn^c_t/T$个。
算法流程如下图所示:
该模型实验效果比较显著,甚至超过了TADA、MEDA、Symnet等深度模型。
此外,作者进行了Ablation Study,即对pseudo-labeling (PL),sample selection (S) for pseudo-labeling,nearest class prototype (NCP) 和 structured prediction (SP)这四个部分进行不同的组合。最后得出四个部分都使用的时候性能是最好的。
3 启发
- $L_2$归一化提高样本分离度。
- 本文的SPL依然把目标域和源域的信息割裂开来了。能否把对所有样本实施K-means,得到然后在每一个簇中源域样本哪一类多,则这一簇中的目标域样本就为哪一类。
- 或可使用其他聚类方法,分层聚类,原型聚类,密度聚类等.
- 能否利用低秩表示来计算相似度矩阵。