对抗训练的扩散模型如何实现的鲁棒概念擦除?
摘要:一、研究背景与核心问题 扩散模型(DMs)在文本到图像生成领域取得显著成功,但存在生成有害内容(如NSFW图像)和侵犯版权等安全风险。机器遗忘(概念擦除)技术旨在缓解这些风险,却易受对抗性提示攻击——通过对输入提示进行微小扰动,可使已完成概
一、研究背景与核心问题
扩散模型(DMs)在文本到图像生成领域取得显著成功,但存在生成有害内容(如NSFW图像)和侵犯版权等安全风险。机器遗忘(概念擦除)技术旨在缓解这些风险,却易受对抗性提示攻击——通过对输入提示进行微小扰动,可使已完成概念擦除的扩散模型重新生成需擦除的内容(如裸体图像)。
核心研究问题:如何高效提升概念擦除后扩散模型对对抗性提示攻击的鲁棒性,同时兼顾图像生成质量(模型效用)?
二、关键原理
2.1 扩散模型基础(潜在扩散模型LDM)
扩散模型通过“逐步去噪”将随机高斯噪声转化为清晰图像,其训练目标是最小化去噪误差。
设:
\(x\):清晰图像,\(x_t\):\(t\)时刻含噪声的图像( latent 空间表示)
\(c\):文本提示,\(\epsilon_\theta(x_t|c)\):参数为\(\theta\)、条件为\(c\)的噪声估计器
\(\mathcal{D}\):训练数据集,\(\epsilon \sim \mathcal{N}(0,1)\):随机噪声
训练目标函数(最小化去噪误差):
\[\underset{\theta}{minimize} \mathbb{E}_{(x, c) \sim \mathcal{D}, t, \epsilon \sim \mathcal{N}(0,1)}\left[\left\| \epsilon - \epsilon_{\theta}\left(x_{t} | c\right)\right\| _{2}^{2}\right] \tag{1}
\]
含义:使模型估计的噪声\(\epsilon_\theta(x_t|c)\)尽可能接近真实噪声\(\epsilon\),保证去噪过程准确性。
2.2 概念擦除基础(ESD方法)
ESD(Erased Stable Diffusion)是主流概念擦除方法,通过调整噪声估计器,引导模型生成远离需擦除概念的图像。
设:
\(c_e\):需擦除的概念(如“裸体”)
\(\theta_o\):原始预训练模型参数,\(\theta\):概念擦除后模型参数
\(\epsilon_\theta(x_t|\emptyset)\):空提示(无条件)下的噪声估计
\(\eta>0\):擦除引导参数(控制擦除强度)
噪声估计器调整规则:
\[\epsilon _{\theta }(x_{t}|c_{e}) \gets \epsilon _{\theta _{o}}(x_{t}|\emptyset ) - \eta \left( \epsilon _{\theta _{o}}(x_{t}|c_{e}) - \epsilon _{\theta _{o}}(x_{t}|\emptyset )\right) \tag{2}
\]
含义:通过“减去原始模型在\(c_e\)与空提示下的噪声差”,降低模型生成\(c_e\)相关图像的概率。
ESD训练目标函数(最小化调整后的噪声误差):
\[\underset{\theta}{minimize} \ell_{ESD}\left(\theta, c_{e}\right) := \mathbb{E}\left[\left\| \epsilon_{\theta}\left(x_{t} | c_{e}\right) - \left( \epsilon_{\theta_{o}}\left(x_{t} | \emptyset\right) - \eta\left( \epsilon_{\theta_{o}}\left(x_{t} | c_{e}\right) - \epsilon_{\theta_{o}}\left(x_{t} | \emptyset\right)\right) \right) \right\| _{2}^{2}\right] \tag{3}
\]
简化:省略期望中的\(t\)和\(\epsilon\),专注于\(\theta\)的优化,确保\(\theta\)满足“远离\(c_e\)”的生成约束。
2.3 对抗性提示攻击模型
对抗性提示通过微小扰动(如 token 替换、嵌入空间扰动)生成\(c'\),使概念擦除后的模型仍生成\(c_e\)相关内容。
