迁移学习中的互信息变分上下界是什么?
摘要:在机器学习,尤其是涉及异构数据的迁移学习联邦学习中,我们常常会涉及互信息相关的优化项,我上半年的第一份工作也是致力于此。其思想虽然简单,但其具体的估计与优化手段而言却大有门道,我们今天来好好总结一下,也算是对我研一下学期一个收尾。为了解决
1 导引
在机器学习,尤其是涉及异构数据的迁移学习/联邦学习中,我们常常会涉及互信息相关的优化项,我研一下期的处女作(发在SDM'24上)也是致力于此(ArXiv论文链接:FedDCSR,GitHub源码链接:FedDCSR)。其思想虽然简单,但其具体的估计与优化手段而言却大有门道,我们今天来好好总结一下,也算是对我研一的一个收尾。
我们知道,随机变量\(X\)和\(Y\)的互信息定义为其联合分布(joint)\(p(x, y)\)和其边缘分布(marginal)的乘积\(p(x)p(y)\)之间的KL散度(相对熵)[1]:
\[\begin{aligned}
I(X ; Y) &= D_{\text{KL}}\left(p(x, y) \parallel p(x)p(y)\right) \\
&=\mathbb{E}_{p(x, y)}\left[\log \frac{p(x, y)}{p(x)p(y)}\right]
\end{aligned}
\tag{1}
\]
直观地理解,互信息表示一个随机变量包含另一个随机变量信息量(即统计依赖性)的度量;同时,互信息也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量,即\(I(X; Y) = H(X) - H(X \mid Y) = H(Y) - H(Y\mid X)\)。当\(X\)和\(Y\)一一对应时,\(I(X; Y) = H(X) = H(Y)\);当\(X\)和\(Y\)相互独立时\(I(X; Y)=0\)。
在机器学习的情境下,联合分布\(p(x, y)\)一般是未知的,因此我们需要用贝叶斯公式将其继续转换为如下形式:
\[\begin{aligned}
I(X ; Y)
&\overset{(1)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(x \mid y)}{p(x)}\right] \overset{(2)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(y \mid x)}{p(y)}\right]
\end{aligned}
\tag{2}
\]
那么转换为这种形式之后,我们是否就可以开始对其进行估计了呢?答案是否定的。我们假设现在是深度表征学习场景,\(X\)是数据,\(Y\)是数据的随机表征,则对于第\((1)\)种形式来说,条件概率分布\(p(x|y)=\frac{p (y|x)p(x)}{\int p(y|x)p(x)dx}\)是难解(intractable)的(由于\(p(x)\)未知);而对于第\((2)\)种形式而言,边缘分布\(p(y)\)也需要通过积分\(p(y)=\int p(y \mid x)p(x)d x\)来进行计算,而这也是难解的(由于\(p(x)\)未知)。为了解决互信息估计的的难解性,我们的方法是不直接对互信息进行估计,而是采用变分近似的手段,来得出互信息的下界/上界做为近似,转而对互信息的下界/上界进行最大化/最小化[2]。
2 互信息的变分下界(对应最大化)
我们先来看互信息的变分下界。我们常常通过最大化互信息的下界来近似地对其进行最大化。具体而言,按照是否需要解码器,我们可以将互信息的下界分为两类,分别对应变分信息瓶颈(解码项)[3][4]和Deep InfoMax[5][6]这两种方法。
2.1 数据VS表征:变分信息瓶颈(解码项)
对于互信息的第\((1)\)种表示法即\(I(X ; Y){=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(x \mid y)}{p(x)}\right]\),我们已经知道条件分布\(p(x|y)\)是难解的,那么我们就采用变分分布\(q(x|y)\)将其转变为可解(tractable)的优化问题。
