迁移学习中的互信息变分上下界是什么？

摘要：在机器学习，尤其是涉及异构数据的迁移学习联邦学习中，我们常常会涉及互信息相关的优化项，我上半年的第一份工作也是致力于此。其思想虽然简单，但其具体的估计与优化手段而言却大有门道，我们今天来好好总结一下，也算是对我研一下学期一个收尾。为了解决

1 导引在机器学习，尤其是涉及异构数据的迁移学习/联邦学习中，我们常常会涉及互信息相关的优化项，我研一下期的处女作（发在SDM'24上）也是致力于此（ArXiv论文链接：FedDCSR，GitHub源码链接：FedDCSR）。其思想虽然简单，但其具体的估计与优化手段而言却大有门道，我们今天来好好总结一下，也算是对我研一的一个收尾。我们知道，随机变量\(X\)和\(Y\)的互信息定义为其联合分布（joint）\(p(x, y)\)和其边缘分布（marginal）的乘积\(p(x)p(y)\)之间的KL散度（相对熵）[1]： \[\begin{aligned} I(X ; Y) &= D_{\text{KL}}\left(p(x, y) \parallel p(x)p(y)\right) \\ &=\mathbb{E}_{p(x, y)}\left[\log \frac{p(x, y)}{p(x)p(y)}\right] \end{aligned} \tag{1} \] 直观地理解，互信息表示一个随机变量包含另一个随机变量信息量（即统计依赖性）的度量；同时，互信息也是在给定另一随机变量知识的条件下，原随机变量不确定度的缩减量，即\(I(X; Y) = H(X) - H(X \mid Y) = H(Y) - H(Y\mid X)\)。当\(X\)和\(Y\)一一对应时，\(I(X; Y) = H(X) = H(Y)\)；当\(X\)和\(Y\)相互独立时\(I(X; Y)=0\)。在机器学习的情境下，联合分布\(p(x, y)\)一般是未知的，因此我们需要用贝叶斯公式将其继续转换为如下形式： \[\begin{aligned} I(X ; Y) &\overset{(1)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(x \mid y)}{p(x)}\right] \overset{(2)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(y \mid x)}{p(y)}\right] \end{aligned} \tag{2} \] 那么转换为这种形式之后，我们是否就可以开始对其进行估计了呢？答案是否定的。我们假设现在是深度表征学习场景，\(X\)是数据，\(Y\)是数据的随机表征，则对于第\((1)\)种形式来说，条件概率分布\(p(x|y)=\frac{p (y|x)p(x)}{\int p(y|x)p(x)dx}\)是难解（intractable）的（由于\(p(x)\)未知）；而对于第\((2)\)种形式而言，边缘分布\(p(y)\)也需要通过积分\(p(y)=\int p(y \mid x)p(x)d x\)来进行计算，而这也是难解的（由于\(p(x)\)未知）。为了解决互信息估计的的难解性，我们的方法是不直接对互信息进行估计，而是采用变分近似的手段，来得出互信息的下界/上界做为近似，转而对互信息的下界/上界进行最大化/最小化[2]。 2 互信息的变分下界（对应最大化）我们先来看互信息的变分下界。我们常常通过最大化互信息的下界来近似地对其进行最大化。具体而言，按照是否需要解码器，我们可以将互信息的下界分为两类，分别对应变分信息瓶颈（解码项）[3][4]和Deep InfoMax[5][6]这两种方法。 2.1 数据VS表征：变分信息瓶颈（解码项）对于互信息的第\((1)\)种表示法即\(I(X ; Y){=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(x \mid y)}{p(x)}\right]\)，我们已经知道条件分布\(p(x|y)\)是难解的，那么我们就采用变分分布\(q(x|y)\)将其转变为可解（tractable）的优化问题。

迁移学习中的互信息变分上下界是什么？

相关推荐