DeepSeek如何仅增加6.7%开销重构ResNet残差连接?
摘要:原文: https:mp.weixin.qq.comsZuA3zSpVHo1-bGB2tQuRpg 关注gzh: AI-Frontiers 论文标题:mHC: Manifold-Constrained Hyper-Connectio
原文: https://mp.weixin.qq.com/s/ZuA3zSpVHo1-bGB2tQuRpg
关注gzh: AI-Frontiers
论文标题:mHC: Manifold-Constrained Hyper-Connections
论文地址:https://arxiv.org/pdf/2512.24880
延续在节假日搞事情的习惯,2026年元旦期间,Deepseek发表了一篇新论文,提出了名为mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)的新架构。相信各位道友当时心里是五味陈杂:终于又可以抄作业了,等等,为啥你要元旦发啊,还让不让人过节啦。
该研究目标在不损失传统HC(超链接)性能增益的基础上,改善其在大模型训练过程中存在的不稳定性问题。
这次创新并非简单的组件替换,而是对神经网络宏观拓扑的一次重构。mHC将传统Transformer的单一残差流扩展为多流并行架构,通过引入严谨的几何流形约束,成功解决了HC在大规模训练中的数值不稳定和信号爆炸问题。
本文将带大家深扒这篇论文的提出背景、底层原理和实验效果,并附带网友的实战代码资源。
基本概念
残差连接
论文标题:Deep Residual Learning for Image Recognition
论文地址:https://arxiv.org/pdf/1512.03385
2015年,由微软亚洲研究院的何恺明团队提出ResNet,ResNet引入残差连接的概念,用以解决深层神经网络训练中的梯度消失/爆炸和网络退化问题,使得训练极深的网络成为可能。
\[\begin{align} x_{l+1} = x_l + F(x_l, W_l) \end{align}
\]
在公式(1)中:
\(x_l \in R^{1 \times d}\)为 \(l\)层网络输入
\(F\)为对 \(l\)层进行的非线性变换,如卷积、Attention或MLP等
\(x_{l+1} \in R^{1 \times d}\)为该层的输出
传统的网络试图对每层的输入 \(x\) 直接学习目标映射 \(H(x)\)。而残差网络的设计思想是:既然直接学习很难,不如让网络去学习每层的残差,
\[\begin{align} F(x) = H(x) - x \end{align}
\]
公式(1)和公式(2)本质是一样的:
公式(2)中的 \(F(x)\)即为公式(1)的 \(F\)
公式(2)中的\(H(x)\)即为公式(1)的\(x_{l+1}\)
公式(2)中的 \(x\) 即为公式(1)的\(x_l\)
这就像是把原始文件\(x\)复印了一份直接交给下一个人,同时附上一张便利贴,上面写着这一层所做的修改\(F(x)\)。下一个人收到的是「原件 + 修改意见」,该设计的关键特性是恒等映射(Identity Mapping)能力。
在网络初始化的早期阶段,权重通常很小\(F(x) \approx 0\)。此时:
\[\begin{align} x_{l+1} \approx x_l + 0 = x_l \end{align}
\]
这意味着,信号像是在高速公路上一样,毫无阻碍地从第一层直通最后一层。梯度也可以沿着这条高速公路无损地回传。正是这一特性,使得训练成百上千层的网络(如GPT-4, DeepSeek-V3)成为可能。
超连接(Hyper-Connections, HC)
论文标题:HYPER-CONNECTIONS 论文地址:https://arxiv.org/pdf/2409.19606
残差连接的问题
标准的残差连接强制要求输入信号与经过变换的信号以 1:1 的比例叠加,虽然保证了梯度的高速公路,但也带来了两个问题:
信息流瓶颈:原来只有一条残差通道,所有信息不管是简单细节还是高层抽象,都挤在同一条路上传。这就像所有车都走一条车道,没法灵活分配路线,模型没法根据需要把信息送到最合适的地方。
表示坍塌:网络特别深的时候,为了不崩、训练稳定,很多层其实学不到有用的新东西,只能改一点点、几乎等于没改。结果就是白白浪费算力,提取出来的特征都长得差不多,没有多样性,表达能力变弱。
在上面的背景下, 字节提出了Hyper-Connections的模型结构来改进传统的残差连接结构。通过扩展残差流宽度和多样化连接模式,拓展了过去十年中广泛应用的残差连接范式。
HC的核心思想是将原本单一维度的残差流扩展为\(n=4\)个并行的流,然后乘以一个权重矩阵\(H_l^{res}\)。
