1 简介
文章来源:2018-TNNLS
寻找领域不变特征一般分为三类:
- 子空间学习
- 非线性投影
- [X] 字典学习
- 稀疏约束
- [X] 低秩约束
- 局部约束
为了实现两个领域的迁移需要减小其分布差异:
- [X] 边缘分布$P(X_{s})$与$P(X_{t})$
- [X] 条件分布$P(Y_{s}|X_{s})$与$P(Y_{t}|X_{t})$
2 详情
- 从稀疏编码谈起:
- 减小边缘分布差异:
- 由于光照,角度等问题。直接通过字典学习得到新特征太浅显。$\Rightarrow$使用CNN提取抽象特征(参数共享)。
- 对于存在较大分布差异情况,学习的一个字典之后新特征空间中$P(Z_{s})$与$P(Z_{t})$的差异依然大。$\Rightarrow$通过task-specific全连接层学习多层字典来覆盖两个领域共同特征,逐步减小分布差异。
- task-specific全连接层的神经元个数需要根据秩固定。
- $\Rightarrow$通过对$Z$的低秩约束来获取有识别力的新特征。(还能防止过拟合)
- 只需约束最后一层的$Z_{k}$就能使中间层都能低秩学习:
- $\Rightarrow$改进结果:
- 减小条件分布差异:
- 半监督知识适应($Z_{k}=[Z_{k}^s,Z_{k}^t]$):
- 从传统的MMD谈起:
- 改进:
- 传统的MMD只能减小边缘分布差异$\Rightarrow$采用类间MMD,可减小条件分布差异。
- 但目标域几乎无标签可用$\Rightarrow$对目标域样本添加软标签(样本属于每个类的概率)。
- 半监督知识适应($Z_{k}=[Z_{k}^s,Z_{k}^t]$):
- “end-to-end”:
- 添加softmax层,计算交叉熵损失:
- 非线性化:
- 非线性的数据表示可有效减少统计和感知冗余,同时可提高神经网络训练速度,一举两得。使用ReLU这个非线性的激活函数:
- 低秩约束:
- 希望同类样本的被一个基底张成。那么$Z_{k}$的真实秩即类的总数$C$。将$Z_{k}\approx AB$作为低秩约束,其中$A\in \mathbb{R}^{d_{k}\times C}$,$B\in \mathbb{R}^{C \times n}$。
- 最终目标函数:
3 思考
- 深度学习与迁移学习结合起来,充分发挥各类神经网络的优势。CNN提取抽象特征,NN非线性拟合,GAN拟合分布,RNN序列模型,等等。
- 是否还需考虑保持特征空间的局部结构或谱结构,使用图拉普拉斯?
- 是否可以引入流形学习的方法,假设两个领域的数据是采样于一个高维流形,每类数据分布紧凑。那么学习一个特征映射并通过它得到一个新的特征空间。
- 低秩约束是否太强。能否充分利用好软标签即样本标签的概率来挖掘类间的关系。
- 能否引入文本信息,做更广泛的迁移?
- 如果使用BN层会不会效果更好?