问渠那得清如许?为有源头活水来。

1 信息论

1.1 信息熵(Entropy)

信息熵的本质是香农信息量$log\frac{1}{p}$的期望。

离散:

连续:

香农信息量的意义:一个事件出现的概率越低,对其编码的长度越大。(huffman编码的思想。)

熵的意义:最短平均编码长度。(因为我们用真实分布$p_i$来编码,编码方案是最优的。)

1.2 交叉熵(Cross Entropy)

交叉熵的本质是对估计分布的编码长度。todo

离散:

连续:

交叉熵的意义:估计平均编码长度。(用一个估计分布$q_i$来编码一个真实分布$p_i$,编码不一定是最优的。)

可证明$H(p,q)\le H(p)$,当且仅当$p=q$时等号成立。

1.3 相对熵(Relative Entropy)

又称KL散度信息增益,用来衡量来个分布之间的差异,具有不对称性。

相对熵的意义:估计平均编码长度相较于最短平均编码长度的冗余。

2 概率论

2.1 最大似然估计(MLE)

2.2 贝叶斯估计(BE)

2.3 最大后验估计(MAP)

因$p(x_0)$,已知。故等价于:

3 矩阵分析

3.1 特征值分解

3.2 奇异值分解

3.4 中心矩阵

给定m维数据的n个样本,用$m \times n$矩阵${X=[\mathbf{x}_{1},\mathbf{x}_{2},\ldots ,\mathbf{x}_{n}]}$。其表示样本均值为:

$$\overline { {\mathbf {x} } }={\frac {1}{n}}\sum _{ {j=1} }^{n}{\mathbf {x}}_{j}$$

其中${\mathbf {x} _{j}}$表示$X$矩阵的第$j$列。

  1. $n \times n$的中心矩阵可表示为:

    $I_{n}$为单位矩阵, $\phi$表示全为1的矩阵。

    • 中心矩阵的性质:
      • 对称半正定;
      • 幂等;
      • 奇异;
      • 有n-1个值为1的特征值,有一个值为0的特征值;
      • 当n为1时,是零空间;
      • 是投影矩阵,也就是说,把n维空间投影到n-1维子空间。
    • 中心矩阵的特性:
      • 给定$n$维的列向量$v$,若$u$中每个元素都是列向量$v$的所有元素的均值,有:
  2. 散度矩阵$S$可表示为:

  3. 协方差矩阵$\Sigma$可表示为:

3.5 三个矩阵

3.6 拉普拉斯矩阵(Graph Laplacians)

一般的$L = D - \frac{S^T+S}{2}$,其中$D$为对角矩阵,元素为$\sum(s_{ij}+s_{ji})/2$。

性质:对称,半正定。

  1. 对于特征向量$\bf x$有:

  2. 对于特征矩阵$\bf X$有: