1 简介

文章来源:2014-KDD

文章主旨:

  1. 由于相似性度量和数据聚类分为两个步骤进行,可能会导致学习到的数据相似度不是最佳的。本文提出一个新框架让两者同时进行。
  2. 对拉普拉斯矩阵中的相似度矩阵进行秩约束,从而诱导聚类结构。
  3. 把模型扩展到投影聚类来处理高维数据。

吐槽与膜拜:

这篇文章的符号设定简直反人类,且还有几处小错误。但是瑕不掩瑜,论文字字珠玑,最牛批的是直接让$K$-means和谱聚类沦为了跟班小弟。当时就WC了,小脑袋瓜都怎么长的,咋这好使。传统的机器学习确实是宝刀未老,14年的文章现在来看也毫不过时(也可能是我涉猎太少)。反观现在的深度学习研究感觉处在一个病态阶段,大都是在用体力劳动的结果说话,反复修改参数,堆砌部件,结果好就是老大,丝毫不管为什么好,为什么不好,模型的可解释性如何。不得不感叹,我们离真正的人工智能时代之间确实还是道阻路且长,在让机器学会如何学习之前,只能姑且被称为人力驱动的劳动密集型AI。在此之前,传统的机器学习还是应该受到重视的,因为深度学习的诱导和和驱动的源泉还是这些传统机器学习知识。一通认知浅薄的大话,不知不觉就扯远了,总之本文绝对是值得反复读的经典没错!

2 模型框架

  1. 更小的距离应该被分配更大的邻近概率:

    其中第二项相当于正则化项,表示在不考虑数据的距离信息情况下,每个数据点$x_i$与其他点的邻近概率趋向于$\frac{1}{n}$(算术平均数≤平方平均数),以此作为一个先验的邻近分配。

    进一步,将$d_{ij}^x = \Vert x_i - x_j \Vert_2^2$代入,则$(1)$式可转化为:

  2. 诱导连通分量为$c$个(即将数据聚为$c$簇)。

    将$(1)$式中得到的$S\in \mathbb{R}^{n\times n}$看作图节点的相似矩阵,每个节点$i$被赋值为$f_i \in \mathbb{R}^{1\times c}$,有:

    若相似矩阵$S$为非负的,那么拉普拉斯矩阵满足一个重要性质:

    定理1
    在拉普拉斯矩阵$L_S$中,特征根0的重数等于图的相似矩阵$S$的连通分量个数。

    也就是说,我们可以通过约束$rank(L_S) = n-c$来得到很好的聚类结构。而不需要进行$K$-means或者其他离散化程序。因此,结合(1)式,得到:

  3. 对于$(4)$式的优化算法。

    设$\sigma_i(L_S)$是$L_S$最小的第$i$个特征值,且因为$L_S$为半正定的,$\sigma_i(L_S)\ge 0$。则可引入一个足够大的$\lambda$,将$(4)$式转化为:

    根据Ky Fan定理,我们可以得到:

    将$(6)$式代入$(5)$式,有:

    这样一来,问题就简单了很多。我们可以先固定$S$,那么$(7)$式变成了:

    我们对$(8)$式求的$F$其实就是$L_S$最小的$c$个特征值所对应的特征向量。然后固定$F$,那么$(7)$式就变成了:

    根据$(3)$式,有:

    注意$d_{ij}= d^x_{ij} + \lambda d^f_{ij}$,其中$d_{ij}^x = \Vert x_i - x_j \Vert_2^2$,$d_{ij}^f = \Vert f_i - f_j \Vert_2^2$。根据$(2)$式,有:

    其中$s_i$和$d_i$分别为$S$和$d_{ij}$的第$i$列向量。

    综上,交替迭代$(8)$和$(11)$式更新$F$和$S$即可。

3 联系$K$-means

引理1
$HD^xH =-2HXX^TH$

证明:

中心矩阵定义为:

由$d^x_{ij} =\Vert x_i -x_j \Vert_2^2 = x_i^Tx_i +x_j^Tx_j -2x_i^Tx_j$,可得:

同时注意$H\mathbf{1} = \mathbf{1}^TH = 0$,则对$(13)$式左乘右乘$H$,得证。

定理2
当$\gamma \rightarrow \infty$时,$(4)式$等价于$K$-means问题。

证明:

将$(4)$式写成矩阵形式:

由于$rank(L_S) = n- c$,那么解$S$有确切的$c$个连通分量,也就是$S$经过适当变换之后可以写成块对角的形式,例如:

第$i$个连通分量$S_i \in \mathbb R^{n_i\times n_i}$,其中$n_i$为该连通分量中的数据个数。那么$(14)$式可转化为对每个连通分量$i$:

当$\gamma \rightarrow \infty$时,$(15)$式就转化为:

那么$(16)$的最优解就是$S_i$的所有元素都等于$\frac{1}{n_i}$。

因此,当$\gamma \rightarrow \infty$时,$(14)$式的最优解$S$应该是这样的:

也就是说对于每一个最优的划分$\mathcal{V}$来说,总有$\Vert S \Vert_F^2 = c$。到了这里发现$(14)$式的第二项在后续的优化过程中是个常数,$(14)$式可写为:

其中$S$为对称阵,且$\mathbf{1}^T S = \mathbf{1}^T$,再结合$(12)$式。可知:

那么根据$(19)$式,$(18)$式可写为:

定义一个标签矩阵$Y \in \mathbb{R}^{n\times c}$,其中:

结合$(20)(21)$式和引理1,可得:

终于得证了当$\gamma \rightarrow \infty$时,这就是一个实打实的$K$-means问题。当标签$Y$已知时,$S_w$其实就是线性判别分析(LDA)中的类内散度矩阵。而$K$-means就是要找到一个最优的$Y$来使得$S_w$的迹最小。

值得注意的是,尽管$\gamma \rightarrow\infty$时,算法只能用来解决$K$-means问题(对数据进行球形分区),但是当$\gamma$不是很大的时候,还是能解决任意形状的分区问题的。牛批!

4 联系谱聚类

当给定图的相似矩阵$S$时,谱聚类要解决的问题是:

与$(8)$式一样,最优解$F$就是由拉普拉斯矩阵$L_S$中最小的$c$个特征值所对应的特征向量组成的。

通常,在给定$S$后求得的$F$并不能直接用来聚类,因为$S$没有给出明确的连通分量个数$c$。也就是需要对$F$进行$K$-means或其他离散化过程才能得到最终的聚类结果。

但是在本文的模型中,$F$和$S$是交替优化的。当最终收敛时,$(23)$式求出来$F$,$S$同时也被求得。并且得益于$rank(L_S) = n -c$这一约束,学得的$S$有明确的连通分量个数$c$。所以$F$直接就是聚类的结果,不需要像传统的谱聚类一样再对$F$聚类。

因此,最优解$F$可以被写为:

其中$Y\in \mathbb{R}^{n \times c}$就是$(21)$式中定义的标签矩阵;$Q \in \mathbb{R}^{c \times c}$是任意的正交矩阵。意思是$rank(F) = c$,也就是说本文模型得到的$F$直接就是聚类的结果。

可以看到,传统的谱聚类只能在给定相似矩阵$S$时来求$F$,并且还需要对$F$再聚类才能得到结果。而本文算法不仅不需要给定$S$,还能生成一个自适应的$S$。厉害!

5 确定$\gamma$的值

众所周知,调好超参就等于成功了一半。在本文的模型中,$\gamma$恐怕是最难缠的了,其跨度是$[0,\infty)$,想想都头疼。于是作者做了下面的工作大大减少了死于调参的脑细胞。

对于$(7)$式中的$\gamma$,可以将$(7)$式等价于$(2)$式。$(2)$式的拉格朗日函数为:

其中$\eta,\beta_i \ge 0$为拉格朗日乘子 。根据$\mathrm{KKT}$条件,最优解$s_i$可被表示为:

通常关注数据的局部性可以得到更好的效果,最好就是学的一个稀疏的$s_i$,也就是只有$x_i$的$k$个最临近的点才有机会与$x_i$相连。稀疏的相似矩阵$S$另一个好处当然是可以缓解后续的计算压力。

不失一般性地假设$d_{i1}^x,d_{i2}^x,\dots,d_{in}^x$从小到大排列。如果最优解$s_i$仅有$k$个非零元素,那么根据$(26)$式,我们知道$s_{ik}> 0$且$s_{i,k+1} = 0$。因此,可得到:

再根据$(26)$式和$s_i^T\mathbf{1} = 1$,我们有:

因此对于$(2)$式,为了得到有$k$个非零元素的最优解$s_i$,根据$(27)(28)$式我们可以将$\gamma_i$设为:

那么对于所有的$\gamma$,即$\gamma_1,\gamma_2,\dots,\gamma_n$,有:

这样对$\gamma$的调参就转化为了对邻近数$k$的调参,而$k$属于整数集且有直观的含义,效率无疑得到大幅提升。

6 投影聚类

6.1 模型框架

  1. 为了解决高维数据的聚类问题,作者想找到一个最优的投影子空间,使得利用本文的模型能让数据点在其中可以得到准确的$c$个连通分量结构。

    注意到总散度矩阵$S_t = X^THX$,其中$H$为$(12)$式定义的中心矩阵。假设我们要学得一个投影矩阵$W\in \mathbb{R}^{d\times m}$。首先我们需要约束子空间$W^TS_tW=I$,实际上就是保留了原空间的协方差,即保证在子空间中数据都是统计意义上不相关的(协方差矩阵其实就等于散度矩阵除以$n-1$)。其次,需要根据$(1)$式来分配近邻。所以要解决的问题可表示为:

    同样的,为了诱导$c$个连通分量,我们通过$rank(L_S) =n -c$来约束$S$,于是学习投影矩阵$W$和学习聚类可以同时进行:

  2. 对于$(32)$式的优化算法。

    采用$(5)(6)$式同样的trick将$(32)$式转化为:

    首先固定$S$和$W$,则$F$由拉普拉斯矩阵$L_S$中$c$个最小特征值对应特征向量组成。

    然后就是固定$F$,$(33)$式变为:

    接着固定$S$,$(34)$式变为:

    再根据$(3)$式,$(35)$式变为:

    那么最优解$W$由$S_t^{-1}X^TL_SX$中最小的$m$个特征值所对应的特征向量组成。

    最后固定$W$,对于$(34)$式有:

    注意到$(37)$式中所有$i$都是独立的。且有$d_{ij}^{w}= d^{wx}_{ij} + \lambda d^{f}_{ij}$,其中$d_{ij}^{wx} = \Vert W^Tx_i - W^Tx_j \Vert_2^2$,$d_{ij}^f = \Vert f_i - f_j \Vert_2^2$。$(37)$式可写为向量形式:

    综上,首先固定$S$和$W$更新$F$,然后固定$F$和$S$根据$(36)$式更新$W$,最后固定$F$和$W$根据$(38)$式更新$S$。

6.2 联系LDA

定理3
当$\lambda \rightarrow \infty$时,$(32)$式等价于LDA问题,其中标签也是需要被优化的变量。

证明:

$(32)$式写成矩阵的形式:

同样最优解$S$由于$rank(L_S) = n -c$的缘故,可以变换后得到一个分块对角阵,对每一个连通分量$i$有:

当$\lambda \rightarrow \infty$时,$(40)$式变成了:

那么对于最优解$S$,其分块$S_i$的每一个元素都等于$\frac{1}{n_i}$。

也就说当$\lambda \rightarrow \infty$时,每一个满足最优解的划分$\mathcal{V}$,都有:

最后结合$(42)$式和引理1,有:

如果标签矩阵$Y$已知,那么$(43)$式就等价于LDA问题。因此当$\lambda \rightarrow \infty$时,本文的模型可以解决标签矩阵未知的LDA问题。

当$\gamma$不是很大时,$(36)$式中的矩阵$X^TL_SX$可以被视为局部类散度矩阵。在这种情况下,模型可以看作是基于局部散度矩阵的LDA方法的无监督版本,而LDA方法是为处理多模态非高斯数据而设计的。

7 思考

  1. 先说一下读这篇论文的感受。一开始拿到论文,因为不熟悉的聚类领域,认真看了INTRODUCTION。然后就开始懵逼了,这么多公式,推理向的论文简直让人头大。可能是因为看西瓜书看怕了,最怕就是前面还是1+1,后面就变成了@#¥%。但是一路看下来,论文推导写的意外的流畅,看得舒爽无比。看完模型后其实没有感觉有多厉害,然而没有对比就没有伤害,后面作者把自己的模型联系到$K$-means和谱聚类,让二者直接成为了模型的一种特例时,简直激动到爆炸。膜拜!

    感慨万千,数学功底真的是无比重要,关键时刻旁征博引,各种定理引理张口就莱,打通了论文的任督二脉,狼人话不多,直接两开花。

  2. 关于均值不等式。

    如果$x_{1},x_{2},\ldots ,x_{n}$是正数,则有$H_n \le G_n \le A_n \le Q_n$,其中:

    当且仅当$x_{1}=x_{2}=\cdots =x_{n}$,等号成立。

    即对这些正数:调和平均数 ≤ 几何平均数 ≤ 算术平均数 ≤ 平方平均数

  3. 关于迹的运算。对于$A_{n\times n },B_{n\times n },C_{n\times n }$有:

    • $Tr(AB) = Tr(BA)$
    • $Tr(ABC) = Tr(CAB) = Tr(BCA)$
    • $Tr(A) = Tr(A^T)$
    • $Tr(a) = a, a \in \mathcal{R}$
    • $\bigtriangledown_A Tr(AB) = B^T$
    • $\bigtriangledown_A Tr(A^TBA) = (B+B^T)A$
    • $\bigtriangledown_A T r(ABA^TC) = CAB + C^TAB^T$
  4. 关于$\mathrm{KKT}$条件(详见李航《统计学习方法》附录C)。

  5. 可以利用算法到迁移学习中。比如谱聚类中,我们能否利用算法生成的自适应的$S$作为监督学习。

  6. 2019年4月3日 VALSE Webinar 中听了报告嘉宾的两篇论文:《Image Translation for Domain Adaptation and Generalization》、《Image Translation for Domain Adaptation and Generalization》。然后Panel嘉宾(龙明盛、段立新)的进行了一些讨论。

    简单规划一下读论文的方向:

    • 了解一下负迁移,样本迁移,参数迁移的相关论文。
    • 了解迁移模型的选择工作、迁移模型的交叉验证。
    • 侧重关注关系迁移,元学习的论文。
    • 关注杨强教授的研究,读他的经典论文。