两个多维高斯分布的KL散度如何推导？

摘要：在深度学习中，我们通常对模型进行抽样并计算与真实样本之间的损失，来估计模型分布与真实分布之间的差异。并且损失可以定义得很简单，比如二范数即可。但是对于已知参数的两个确定分布之间的差异，我们就要通过推导的方式来计算了。下面对已知均值与协方差

在深度学习中，我们通常对模型进行抽样并计算与真实样本之间的损失，来估计模型分布与真实分布之间的差异。并且损失可以定义得很简单，比如二范数即可。但是对于已知参数的两个确定分布之间的差异，我们就要通过推导的方式来计算了。　　下面对已知均值与协方差矩阵的两个多维高斯分布之间的KL散度进行推导。当然，因为便于分布之间的逼近，Wasserstein distance可能是衡量两个分布之间差异的更好方式，但这个有点难，以后再记录。一般结论　　首先定义两个$n$维高斯分布如下： $\begin{aligned} &p(x) = \frac{1}{(2\pi)^{0.5n}|\Sigma|^{0.5}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)\\ &q(x) = \frac{1}{(2\pi)^{0.5n}|L|^{0.5}}\exp\left(-\frac{1}{2}(x-m)^T L^{-1}(x-m)\right)\\ \end{aligned}$ 　　需要计算的是： $\begin{aligned} \text{KL}(p||q) = \text{E}_p\left(\log\frac{p(x)}{q(x)}\right) \end{aligned}$ 　　为了方便说明，下面分步进行推导。首先： $\begin{aligned} \frac{p(x)}{q(x)} &= \frac {\frac{1}{(2\pi)^{0.5n}|\Sigma|^{0.5}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)} {\frac{1}{(2\pi)^{0.5n}|L|^{0.5}}\exp\left(-\frac{1}{2}(x-m)^T L^{-1}(x-m)\right)}\\ &=\left(\frac{|L|}{|\Sigma|}\right)^{0.5}\exp\left(\frac{1}{2}(x-m)^T L^{-1}(x-m) -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right) \end{aligned}$ 　　然后加上对数： $\begin{aligned} \log\frac{p(x)}{q(x)} &= \frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \frac{1}{2}(x-m)^T L^{-1}(x-m) - \frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \end{aligned}$ 　　再加上期望： $\begin{aligned} \text{E}_p\log\frac{p(x)}{q(x)} &=\frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \text{E}_p\left[\frac{1}{2}(x-m)^T L^{-1}(x-m) - \frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right]\\ &=\frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \text{E}_p\text{Tr}\left[\frac{1}{2}(x-m)^T L^{-1}(x-m) - \frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right]\\ \end{aligned}$ 　　第二步是因为结果为标量，可以转换为计算迹的形式。

两个多维高斯分布的KL散度如何推导？

相关推荐