Ada-RefSR如何开启信而有证的参考超分新范式?

摘要:针对于单步SD的超分模型容易出现幻觉问题,提出了信而有证参考超分新范式,基于单步扩散模型构建,首先通过注意力机制引入参考信息,随后通过隐式相关性建模进行过滤与验证。
作者: vivo BlueImage Lab 摘要: 我们针对于单步SD的超分模型容易出现幻觉问题,提出了信而有证参考超分新范式,基于单步扩散模型构建,首先通过注意力机制引入参考信息,随后通过隐式相关性建模进行过滤与验证,对应的论文已被 ICLR2026 接收! 该工作由vivo BlueImage Lab,南开大学共同完成。 项目主页: https://github.com/vivoCameraResearch/AdaRefSR 一、研究背景:解决扩散模型的“幻觉”困境 基于扩散模型的单图超分(SISR)虽然能生成惊艳的细节[1, 2],但其本质是一个病态(ill-posed)问题。在缺乏外部约束时,模型容易产生幻觉(Hallucinations)——即伪造不真实的纹理。参考超分(RefSR)试图通过引入参考图(Ref)[3, 4]来纠正这一点。但在真实场景中,低质图(LQ)的退化通常是未知的且严重的,导致 LQ 与 Ref 的匹配极度困难。 现有痛点:显式的逐 Token 匹配(如 ReFIR [5])在强退化下极度脆弱,极易导致错误的纹理迁移(如双重伪影)。 核心挑战:究竟该如何自适应地利用参考图像?在匹配度高时增强参考,在匹配度低时果断“断舍离”。 我们提出了 Ada-RefSR方法,以解决上述的问题。以下是 Ada-RefSR 与当前主流方法的对比效果: 超越单图极限(vs. S3Diff [6]):相比于基线方法 S3Diff,Ada-RefSR 能够突破单图信息的瓶颈,精准地从参考图中提取并注入高频纹理,显著提升了画面的精细度。 重塑参考范式(vs. ReFIR): - 不过度利用:有效抑制了 ReFIR 常见的误匹配伪影,避免了生搬硬套参考图导致的视觉不协调。 - 更充分激活:在 ReFIR 表现保守、利用率不足的区域,我们的方法能够实现“恰到好处”的细节补充,真正做到了对参考信息的深度挖掘与自适应融合。 二、技术逻辑:一步式生成的背后 我们提出了“Trust but Verify”(信而有证)范式。首先通过注意力机制引入参考信息(Trust),随后通过隐式相关性建模进行过滤与验证(Verify)。 2.1 结构概览 以下是我们的方法结构图: Ada-RefSR 基于单步扩散模型(Single-step Diffusion)构建,核心由两个关键路径组成: ReferenceNet 路径:冻结权重以保留 SD-Turbo 的高质量特征提取能力,通过Reference Attention (RA)实现 LQ 与 Ref 的多尺度特征对齐。 AICG 分支(核心):充当自适应的“流量调节器”。 2.2 核心突破:自适应隐式相关门控 (AICG) 为了实现“Trust but Verify”的范式,我们设计了 AICG 模块。其核心逻辑是通过隐式建模,计算 LQ 输入与参考图之间的“信任分”,从而动态调节细节注入的强度。 第一步:提炼参考特征 (Feature Summarization) 不同于直接使用海量的参考特征 Token(计算量大且含噪声),我们引入了一组可学习的总结 Token ( TS)。通过交叉注意力机制,将参考图中的关键纹理和高频信息压缩到极少量的M个核心 Token 中: 核心逻辑:Ksum​=Attention(TS​,Kref​) 意义:这一步像是一个“过滤器”,只保留参考图中最重要的结构和纹理模式。 第二步:计算隐式相关度 (Implicit Correlation) 我们将 LQ 图像的查询特征(Query)与压缩后的参考特征进行匹配,生成一张相关性图 (Correlation Map): 核心逻辑:Smap​=Softmax(Qlq​⋅Ksum⊤​) 意义:该图反映了 LQ 的每个区域在参考图中找到“可靠对应物”的概率。 第三步:动态门控调节 (Adaptive Gating) 这是实现鲁棒性的关键。我们将相关性图在 Token 维度上取平均,并通过 Sigmoid 函数映射为 0 到 1 之间的自适应权重 G。 计算简化版:G=σ(Mean(Smap​)) 最终融合:Hout​=ZeroLinear(G⊙ReferenceDetail)+LQContext 技术优势: 防伪影保护:当G趋近于 0 时,说明参考图在该区域不可靠,模型会自动切换回单图超分模式,有效避免误匹配导致的幻觉伪影。 极轻量化:由于M(总结 Token 数量)远小于原始特征长度,AICG 引入的额外计算量几乎可以忽略不计。 端到端自学习:门控权重的学习无需人工标注,完全由模型在训练过程中根据重建质量自动优化。
阅读全文