问渠那得清如许?为有源头活水来。
1 信息论
1.1 信息熵(Entropy)
信息熵的本质是香农信息量$log\frac{1}{p}$的期望。
离散:
连续:
香农信息量的意义:一个事件出现的概率越低,对其编码的长度越大。(huffman编码的思想。)
熵的意义:最短平均编码长度。(因为我们用真实分布$p_i$来编码,编码方案是最优的。)
1.2 交叉熵(Cross Entropy)
交叉熵的本质是对估计分布的编码长度。todo
离散:
连续:
交叉熵的意义:估计平均编码长度。(用一个估计分布$q_i$来编码一个真实分布$p_i$,编码不一定是最优的。)
可证明$H(p,q)\le H(p)$,当且仅当$p=q$时等号成立。
1.3 相对熵(Relative Entropy)
又称KL散度或信息增益,用来衡量来个分布之间的差异,具有不对称性。
相对熵的意义:估计平均编码长度相较于最短平均编码长度的冗余。
2 概率论
2.1 最大似然估计(MLE)
2.2 贝叶斯估计(BE)
2.3 最大后验估计(MAP)
因$p(x_0)$,已知。故等价于:
3 矩阵分析
3.1 特征值分解
3.2 奇异值分解
3.4 中心矩阵
给定m维数据的n个样本,用$m \times n$矩阵${X=[\mathbf{x}_{1},\mathbf{x}_{2},\ldots ,\mathbf{x}_{n}]}$。其表示样本均值为:
$$\overline { {\mathbf {x} } }={\frac {1}{n}}\sum _{ {j=1} }^{n}{\mathbf {x}}_{j}$$其中${\mathbf {x} _{j}}$表示$X$矩阵的第$j$列。
$n \times n$的中心矩阵可表示为:
$I_{n}$为单位矩阵, $\phi$表示全为1的矩阵。
- 中心矩阵的性质:
- 对称半正定;
- 幂等;
- 奇异;
- 有n-1个值为1的特征值,有一个值为0的特征值;
- 当n为1时,是零空间;
- 是投影矩阵,也就是说,把n维空间投影到n-1维子空间。
- 中心矩阵的特性:
- 给定$n$维的列向量$v$,若$u$中每个元素都是列向量$v$的所有元素的均值,有:
- 中心矩阵的性质:
散度矩阵$S$可表示为:
或
- 协方差矩阵$\Sigma$可表示为:
3.5 三个矩阵
3.6 拉普拉斯矩阵(Graph Laplacians)
一般的$L = D - \frac{S^T+S}{2}$,其中$D$为对角矩阵,元素为$\sum(s_{ij}+s_{ji})/2$。
性质:对称,半正定。
对于特征向量$\bf x$有:
对于特征矩阵$\bf X$有: