1 简介

文章来源：2018-TNNLS

寻找领域不变特征一般分为三类：

子空间学习
非线性投影
[X] 字典学习
- 稀疏约束
- [X] 低秩约束
- 局部约束

为了实现两个领域的迁移需要减小其分布差异：

[X] 边缘分布$P(X_{s})$与$P(X_{t})$
[X] 条件分布$P(Y_{s}|X_{s})$与$P(Y_{t}|X_{t})$

2 详情

从稀疏编码谈起： $\underset{D,Z}{\text{min}} \quad \lVert {X-DZ}\rVert_{F}^{2} + \mathcal{N}(Z) \\ \text{s.t.} \,\, \lVert{ {d}_{i}^j}\rVert_{2}^2 \le 1 \quad \forall i,j \tag{1}$
减小边缘分布差异：
1. 由于光照，角度等问题。直接通过字典学习得到新特征太浅显。$\Rightarrow$使用CNN提取抽象特征（参数共享）。
2. 对于存在较大分布差异情况，学习的一个字典之后新特征空间中$P(Z_{s})$与$P(Z_{t})$的差异依然大。$\Rightarrow$通过task-specific全连接层学习多层字典来覆盖两个领域共同特征，逐步减小分布差异。
  - task-specific全连接层的神经元个数需要根据秩固定。
3. $\Rightarrow$通过对$Z$的低秩约束来获取有识别力的新特征。（还能防止过拟合）
  - 只需约束最后一层的$Z_{k}$就能使中间层都能低秩学习： $\left. \begin{aligned} Z_{k-1} = D_{k}Z_{k} \Rightarrow \text{rank}(Z_{k-1}) = \text{rank}(D_{k}Z_{k}) \\ \text{rank}(D_{k}Z_{k}) \le \text{min}(\text{rank}(Z_{k}),\text{rank}(D_{k})) \end{aligned} \right\} \Rightarrow \text{rank}(Z_{k-1}) \le \text{rank}(Z_{k}) \\ \Downarrow \\ \text{rank}(Z_{1}) \le \text{rank}(Z_{2}) \le \cdots \text{rank}(Z_{k}) \tag{2}$
4. $\Rightarrow$改进结果： $\underset{D_{1}\dots,D_{2},Z_{k}}{\text{min}} \quad \lVert{X-D_{1}D_{2}\dots D_{k}Z_{k}}\rVert_{F}^{2} + \text{rank}(Z_{k}) \\ s.t. \,\, \lVert{ {d}_{i}^j}\rVert_{2}^2 \le 1 \quad \forall i,j \tag{3}$
减小条件分布差异：
1. 半监督知识适应($Z_{k}=[Z_{k}^s,Z_{k}^t]$)：
  1. 从传统的MMD谈起： $\begin{aligned} \mathcal{M}(Z_{k}) &= \left| \left| {\frac{1}{m_{s}} \sum_{i=1}^{m_{s}} {z_{k,i}} - \frac{1}{m_{t}} \sum_{j=m_{s}+1}^{m}{z_{k,j}} } \right| \right| _{2}^2 \\ &= \sum_{i=1}^m \sum_{j=1}^m {z_{k,i}^\top z_{k,j}W_{ij}=\text{tr}(Z_{k}WZ_{k}^\top)} \end{aligned} \tag{4}$
  2. 改进：
    1. 传统的MMD只能减小边缘分布差异$\Rightarrow$采用类间MMD，可减小条件分布差异。
    2. 但目标域几乎无标签可用$\Rightarrow$对目标域样本添加软标签（样本属于每个类的概率）。 $\mathcal{C}(Z_{k}) = \sum_{c=1}^C \left| \left|{\frac{1}{m_{s}^c} \sum_{i=1}^{m_{s}^c} {z_{k,i}^{s}} - \frac{1}{m_{t}^c} \sum_{j=1}^{m_{t}}{p_{c,j}z_{k,j}^{t}} } \right| \right|_{2}^2 = \sum_{c=1}^C \text{tr}(Z_{k}W^{(c)}Z_{k}^\top) \tag{5}$
“end-to-end”：
- 添加softmax层，计算交叉熵损失： $\mathcal{J}(Z_{K},\Theta,Y) = -\frac{1}{m}\sum _{i=1}^m \sum_{c=1}^C y_{c,i}\text{log}\frac{e^{\theta_{c}^\top}z_{k,i}}{\sum_{u=1}^C e^{\theta_{u}^\top}z_{k,i}} \tag{6}$
非线性化：
- 非线性的数据表示可有效减少统计和感知冗余，同时可提高神经网络训练速度，一举两得。使用ReLU这个非线性的激活函数： $Z_{i} \approx f(D_{i+1}Z_{i+1}) \tag{7}$
低秩约束：
- 希望同类样本的被一个基底张成。那么$Z_{k}$的真实秩即类的总数$C$。将$Z_{k}\approx AB$作为低秩约束，其中$A\in \mathbb{R}^{d_{k}\times C}$，$B\in \mathbb{R}^{C \times n}$。
最终目标函数: $\begin{aligned} \mathcal{L} = &\mathcal{L}(Z_{k},\Theta,Y) + \lambda\Vert{X-D_{1}f(D_{2}f(\cdots f(D_{k}Z_{k}) ))}\Vert_{F}^2 \\ &+\alpha\sum_{c=0}^C\text{tr}(Z_{k}W^{(c)}Z_{k}^{\top})+\beta\Vert{Z_{k}-AB}\Vert_{F}^2 \end{aligned} \tag{8}$

3 思考

深度学习与迁移学习结合起来，充分发挥各类神经网络的优势。CNN提取抽象特征，NN非线性拟合，GAN拟合分布，RNN序列模型，等等。
是否还需考虑保持特征空间的局部结构或谱结构，使用图拉普拉斯？
是否可以引入流形学习的方法，假设两个领域的数据是采样于一个高维流形，每类数据分布紧凑。那么学习一个特征映射并通过它得到一个新的特征空间。
低秩约束是否太强。能否充分利用好软标签即样本标签的概率来挖掘类间的关系。
能否引入文本信息，做更广泛的迁移？
如果使用BN层会不会效果更好？

Deep Transfer Low-Rank Coding for Cross-Domain Learning

2018-11-14
Paper Notes

Deep Transfer Low-Rank Coding for Cross-Domain Learning

1 简介

2 详情

3 思考

Deep Transfer Low-Rank Coding for Cross-Domain Learning

1 简介

2 详情

3 思考

感谢支持！