1 简介
文章来源:2018-TNNLS
Tips:
- 异构领域适应:假设源域和目标域样本分别采样于不同空间,其维度也可能不同。
- 同构领域适应:假设源域和目标域都采样于一个相同空间。
本文考虑异构领域适应的五方面:
- 特征维度差异
- 减少特征失配
- 减小分布差异
- 数据局部一致
主旨:
- 将不同维度的样本映射到同一空间中,通过学得一个共同的字典得到可迁移的特征空间,在这个空间中逐步减小两个领域特征的分布差异。
2 详情
总体目标:
维度差异和特征失配问题:
将领域特征分别经$\bf P_{s}$、$\bf P_{t}$投影到同一维度,并通过共享字典$\bf B$来学的一个新的特征空间。
- 然而对于异构领域适应来说,投影降维的信息损失是十分致命的。通过$\bf PXHX^{\top}P^{\top} = \bf{I}$使投影后的交叉领域数据保留协方差,即特征维度之间保持线性无关。并添加约束$\Vert{\bf{P}}\Vert_{F}^{2}$防止过拟合。
- 分布差异问题:
- 采用MMD来度量领域特征分布差异,可直接用学到的新特征$\bf S$代替经过映射$\phi(\cdot)$后的特征。
- 局部一致问题:
- 新特征空间中一个样本的标签应该与其$k$近邻趋向一致。用$\bf W$表示邻接矩阵,注意其保留的是原始特征空间的数据关系。
- 展开后可用拉普拉斯矩阵表示:
- 最终目标函数:
3 思考
- 字典学习的特征太浅显?
- 拉普拉斯矩阵那些事:
- 三种形式
- Simple Laplacian:$L=D-W$
- Symmetric normalized Laplacian:${\displaystyle L^{\text{sym}}:=D^{-{\frac {1}{2}}}LD^{-{\frac {1}{2}}}=I-D^{-{\frac {1}{2}}}WD^{-{\frac {1}{2}}}}$
- Random walk normalized Laplacian:${\displaystyle L^{\text{rw}}:=D^{-1}L=I-D^{-1}A}$
- 邻接矩阵
- 第一步找近邻:一般采用K邻近法,找出同一类的K个样本。又分两种是否保留相似度的方法:一种是只需要邻近就保留,另一种是两者互为邻近才保留。一般采用前者。
- 第二步求相似度:
- 二值:邻近即为1,非邻近即为0。过于单一。
- 余弦相似度:$cosine(\mathbf x,\mathbf x’)$。一般用这个。
- 径向基(高斯)核函数: $K({\mathbf {x}},{\mathbf {x’}})=\exp \left(-{\frac {||{\mathbf {x}}-{\mathbf {x’}}||_{2}^{2}}{2\sigma ^{2}}}\right)$。计算复杂且引入了新参数,一般不采用。
- 三种形式
- 瑞利熵?
- 度量学习?