1 简介
文章来源:2018-TNNLS
寻找领域不变特征一般分为三类:
- 子空间学习
 - 非线性投影
 - [X] 字典学习
- 稀疏约束
 - [X] 低秩约束
 - 局部约束
 
 
为了实现两个领域的迁移需要减小其分布差异:
- [X] 边缘分布$P(X_{s})$与$P(X_{t})$
 - [X] 条件分布$P(Y_{s}|X_{s})$与$P(Y_{t}|X_{t})$
 
2 详情
- 从稀疏编码谈起:
 - 减小边缘分布差异:
- 由于光照,角度等问题。直接通过字典学习得到新特征太浅显。$\Rightarrow$使用CNN提取抽象特征(参数共享)。
 - 对于存在较大分布差异情况,学习的一个字典之后新特征空间中$P(Z_{s})$与$P(Z_{t})$的差异依然大。$\Rightarrow$通过task-specific全连接层学习多层字典来覆盖两个领域共同特征,逐步减小分布差异。
- task-specific全连接层的神经元个数需要根据秩固定。
 
 - $\Rightarrow$通过对$Z$的低秩约束来获取有识别力的新特征。(还能防止过拟合)
- 只需约束最后一层的$Z_{k}$就能使中间层都能低秩学习:
 
 - $\Rightarrow$改进结果:
 
 - 减小条件分布差异:
- 半监督知识适应($Z_{k}=[Z_{k}^s,Z_{k}^t]$):
- 从传统的MMD谈起:
 - 改进:
- 传统的MMD只能减小边缘分布差异$\Rightarrow$采用类间MMD,可减小条件分布差异。
 - 但目标域几乎无标签可用$\Rightarrow$对目标域样本添加软标签(样本属于每个类的概率)。
 
 
 
 - 半监督知识适应($Z_{k}=[Z_{k}^s,Z_{k}^t]$):
 - “end-to-end”:
- 添加softmax层,计算交叉熵损失:
 
 - 非线性化:
- 非线性的数据表示可有效减少统计和感知冗余,同时可提高神经网络训练速度,一举两得。使用ReLU这个非线性的激活函数:
 
 - 低秩约束: 
- 希望同类样本的被一个基底张成。那么$Z_{k}$的真实秩即类的总数$C$。将$Z_{k}\approx AB$作为低秩约束,其中$A\in \mathbb{R}^{d_{k}\times C}$,$B\in \mathbb{R}^{C \times n}$。
 
 - 最终目标函数:
 
                image
            3 思考
- 深度学习与迁移学习结合起来,充分发挥各类神经网络的优势。CNN提取抽象特征,NN非线性拟合,GAN拟合分布,RNN序列模型,等等。
 - 是否还需考虑保持特征空间的局部结构或谱结构,使用图拉普拉斯?
 - 是否可以引入流形学习的方法,假设两个领域的数据是采样于一个高维流形,每类数据分布紧凑。那么学习一个特征映射并通过它得到一个新的特征空间。
 - 低秩约束是否太强。能否充分利用好软标签即样本标签的概率来挖掘类间的关系。
 - 能否引入文本信息,做更广泛的迁移?
 - 如果使用BN层会不会效果更好?