1 简介

文章来源:2018-TNNLS

寻找领域不变特征一般分为三类:

  • 子空间学习
  • 非线性投影
  • [X] 字典学习
    • 稀疏约束
    • [X] 低秩约束
    • 局部约束

为了实现两个领域的迁移需要减小其分布差异:

  • [X] 边缘分布$P(X_{s})$与$P(X_{t})$
  • [X] 条件分布$P(Y_{s}|X_{s})$与$P(Y_{t}|X_{t})$

2 详情

  1. 从稀疏编码谈起:
  2. 减小边缘分布差异:
    1. 由于光照,角度等问题。直接通过字典学习得到新特征太浅显。$\Rightarrow$使用CNN提取抽象特征(参数共享)。
    2. 对于存在较大分布差异情况,学习的一个字典之后新特征空间中$P(Z_{s})$与$P(Z_{t})$的差异依然大。$\Rightarrow$通过task-specific全连接层学习多层字典来覆盖两个领域共同特征,逐步减小分布差异。
      • task-specific全连接层的神经元个数需要根据秩固定。
    3. $\Rightarrow$通过对$Z$的低秩约束来获取有识别力的新特征。(还能防止过拟合)
      • 只需约束最后一层的$Z_{k}$就能使中间层都能低秩学习:
    4. $\Rightarrow$改进结果:
  3. 减小条件分布差异:
    1. 半监督知识适应($Z_{k}=[Z_{k}^s,Z_{k}^t]$):
      1. 从传统的MMD谈起:
      2. 改进:
        1. 传统的MMD只能减小边缘分布差异$\Rightarrow$采用类间MMD,可减小条件分布差异。
        2. 但目标域几乎无标签可用$\Rightarrow$对目标域样本添加软标签(样本属于每个类的概率)。
  4. “end-to-end”:
    • 添加softmax层,计算交叉熵损失:
  5. 非线性化:
    • 非线性的数据表示可有效减少统计和感知冗余,同时可提高神经网络训练速度,一举两得。使用ReLU这个非线性的激活函数:
  6. 低秩约束:
    • 希望同类样本的被一个基底张成。那么$Z_{k}$的真实秩即类的总数$C$。将$Z_{k}\approx AB$作为低秩约束,其中$A\in \mathbb{R}^{d_{k}\times C}$,$B\in \mathbb{R}^{C \times n}$。
  7. 最终目标函数:
image
image

3 思考

  1. 深度学习与迁移学习结合起来,充分发挥各类神经网络的优势。CNN提取抽象特征,NN非线性拟合,GAN拟合分布,RNN序列模型,等等。
  2. 是否还需考虑保持特征空间的局部结构或谱结构,使用图拉普拉斯?
  3. 是否可以引入流形学习的方法,假设两个领域的数据是采样于一个高维流形,每类数据分布紧凑。那么学习一个特征映射并通过它得到一个新的特征空间。
  4. 低秩约束是否太强。能否充分利用好软标签即样本标签的概率来挖掘类间的关系。
  5. 能否引入文本信息,做更广泛的迁移?
  6. 如果使用BN层会不会效果更好?