深度变分信息瓶颈是什么？

摘要：Deep Variational Information Bottleneck (VIB) 变分信息瓶颈&#160;论文阅读笔记。本文利用变分推断将信息瓶颈框架适应到深度学习模型中，可视为一种正则化方法。变分信息瓶颈假设

Deep Variational Information Bottleneck (VIB) 变分信息瓶颈论文阅读笔记。本文利用变分推断将信息瓶颈框架适应到深度学习模型中，可视为一种正则化方法。变分信息瓶颈　　假设数据输入输出对为$(X,Y)$，假设判别模型$f_\theta(\cdot)$有关于$X$的中间表示$Z$，本文旨在优化$\theta$以最小化互信息$I(Z;X)$ ，同时最大化互信息$I(Z;Y)$，即： $\max\limits_{\theta}I(Z;Y|\theta)-\beta I(Z;X|\theta)$ 　　其中$\beta>0$为平衡系数。直觉理解，上式期望$Z$能保留更少$X$信息的同时能较好用于预测$Y$。那么如何构造相应的深度学习模型以及相应的优化方案？下面推导上式的下界，使其下界变大，上式即可变大。为了简化，下面去掉$\theta$进行推导。上界1 　　$I(Z;X)$展开为： $\displaystyle I(Z;X)=\int \int p(x,z)\log \frac{p(z|x)}{p(z)}dx\,dz$ 　　其中$p(z|x)$为是原始模型关于$x$对中间表示$z$的推理分布。对于其中的$p(z)$，作者用另一个变分估计$r(z)$来拟合。由于有 \begin{align*} &\text{KL}(p(Z),r(Z))\geq 0\\ \implies&\int p(z)\log p(z)dz\geq\int p(z)\log r(z)dz\\ \implies&\int\int p(x,z)\log p(z)dx\,dz\geq\int \int p(x,z)\log r(z)dx\,dz \end{align*} 　　则有 \begin{align*} I(Z;X) &= \int \int p(x,z)\log p(z|x) - p(x,z) \log p(z)dx\,dz \\ &\leq \int \int p(x,z)\log p(z|x) - p(x,z) \log r(z)dx\,dz\\ &=\int\int p(x)p(z|x)\log \frac{p(z|x)}{r(z)}dx\,dz \end{align*} 下界2 　　$I(Z;Y)$展开为： $\displaystyle I(Z; Y) = \int \int p(y, z) \log \frac{p(y|z)}{p(y)} \, dy \, dz$ 　　其中$p(y)$是数据的标签分布，已知。未知而需要进行处理的是其中的$p(y,z)$和$p(y|z)$，也就是模型需要拟合的分布。对于$p(y|z)$，可以用一个解码器$q(y|z)$来拟合，即文中所谓的变分估计。利用KL散度的大于零性质，有以下不等式： \begin{align*} &\text{KL}(p(Y|Z),q(Y|Z))\geq 0\\ \implies &\int \, p(y|z) \log \frac{p(y|z)}{q(y|z)} dy\geq 0\\ \implies &\int \, \frac{p(y,z)}{p(z)} \log \frac{p(y|z)}{q(y|z)} dy\geq 0\\ \implies &\int \, p(y,z) \log p(y|z) dy\geq \int \, p(y,z) \log q(y|z)dy\\ \end{align*} 　　注意最后一步去掉$p(z)$是由于它没有在积分中，是常数。则有 \begin{align*} \displaystyle I(Z; Y) &= \int \int p(y, z) \log p(y|z) - p(y, z) \log p(y) \, dy \, dz\\ &\geq \int \int p(y, z) \log q(y|z) - p(y, z) \log p(y) \, dy \, dz\\ &= \int \int \, p(y, z) \log q(y|z) dy \, dz - \int \, p(y) \log p(y) dy \\ &= \int \int \, p(y, z) \log q(y|z)dy \, dz + H(Y) \end{align*} 　　对于其中的$p(y,z)$，本文基于马尔科夫假设：$Y\leftrightarrow X\leftrightarrow Z$。

深度变分信息瓶颈是什么？

相关推荐