联邦学习如何实现联邦场景下的域泛化?

摘要:然而,目前大多数域泛化方法需要将不同领域的数据进行集中收集。然而在现实场景下,由于隐私性的考虑,数据常常是分布式收集的。因此我们需要考虑联邦域泛化(federated domain generalization, FedDG)方法。这里需要
1 导引 1.1 域泛化 域泛化(domain generalization, DG) [1][2]旨在从多个源域中学习一个能够泛化到未知目标域的模型。形式化地说,给定\(K\)个训练的源域数据集\(\mathcal{S}=\left\{\mathcal{S}^k \mid k=1, \cdots, K\right\}\),其中第\(k\)个域的数据被表示为\(\mathcal{S}^k = \left\{\left(x_i^k, y_i^k\right)\right\}_{i=1}^{n^k}\)。这些源域的数据分布各不相同:\(P_{X Y}^k \neq P_{X Y}^l, 1 \leq k \neq l \leq K\)。域泛化的目标是从这\(K\)个源域的数据中学习一个具有强泛化能力的模型:\(h: \mathcal{X}\rightarrow \mathcal{Y}\),使其在一个未知的测试数据集\(\mathcal{T}\)(即\(\mathcal{T}\)在训练过程中不可访问且\(P_{X Y}^{\mathcal{T}} \neq P_{X Y}^k \text { for } k \in\{1, \cdots, K\}\))上具有最小的误差: \[\min_{h} \mathbb{E}_{(x, y) \in \mathcal{T}}[\ell(h(x), y)] \] 这里\(\mathbb{E}\)和\(\ell(\cdot, \cdot)\)分别为期望和损失函数。域泛化示意图如下图所示: 在对域泛化的理论分析方面,我们常常会在协变量偏移(即标签函数\(h^*\)或者说条件分布\(P_{Y\mid X}\)在所有域中都相同)的假设下考虑特定目标域上的风险。设\(\epsilon^1, \cdots, \epsilon^K\)为源域风险,\(\epsilon^t\)为目标域风险。则在协变量偏移的假设下,每个域均可以通过数据\(\mathcal{X}\)上的分布刻画,故域泛化的学习过程可以被认为是在源域分布的凸包\(\Lambda=\{\sum_{k=1}^K\pi_kP^k_X \mid \pi \in \Delta_K\}\)内去找一个目标域分布\(P^t_X\)[22]的最优近似(优化变量\(\pi\)),其中\(\Delta_K\)是\((K - 1)\)维的单纯形,每个\(\pi\)表示一个归一化的混合权重。源域和目标域之间的差异可以通过\(\mathcal{H}-\text{divergence}\)来度量,\(\mathcal{H}-\text{divergence}\)同时包括了假设空间的影响。 域泛化的误差界 设\(\gamma:=\min _{\pi \in \Delta_M} d_{\mathcal{H}}\left(P_X^t, \sum_{k=1}^K \pi_k P_X^k\right)\)为从凸包\(\Lambda\)到目标域特征分布\(P^t_X\)的距离,且\(P_X^*:=\sum_{k=1}^K \pi_k^* P_X^k\)为在\(\Lambda\)内的最优近似(可以理解为\(P^t_X\)在凸包\(\Lambda\)中的投影)。设\(\rho:=\sup _{P_X^{\prime}, P_X^{\prime \prime} \in \Lambda} d_{\mathcal{H}}\left(P_X^{\prime}, P_X^{\prime \prime}\right)\)为凸包\(\Lambda\)的直径。则目标域\(\mathcal{T}\)的风险\(\epsilon^t(h)\)、源域\(k\)的风险\(\epsilon^k(h)\)与\(\gamma\)、\(\rho\)之间满足如下的关系: \[\epsilon^t(h) \leq \sum_{k=1}^K \pi_k^* \epsilon^k(h)+\frac{\gamma+\rho}{2}+\lambda_{\mathcal{H},\left(P_X^t, P_X^*\right)}, \] 这里\(\lambda_{\mathcal{H},\left(P_X^t, P_X^*\right)}\)是目标域和最优近似分布\(P^*_X\)的理想联合风险,在很多情况下我们假设它是一个极小的值,可以忽略不计。那么我们想要最小化目标域的风险,可以: 最小化源域风险(对应上界的第一项); 最小化源域和目标域之间的表征分布差异来在表征空间中减小\(\gamma\)和\(\rho\)(对应上界的第二项)。
阅读全文