DeepSeek如何仅增加6.7%开销重构ResNet残差连接？

原文: https://mp.weixin.qq.com/s/ZuA3zSpVHo1-bGB2tQuRpg 关注gzh: AI-Frontiers 论文标题：mHC: Manifold-Constrained Hyper-Connections 论文地址：https://arxiv.org/pdf/2512.24880 延续在节假日搞事情的习惯，2026年元旦期间，Deepseek发表了一篇新论文，提出了名为mHC（Manifold-Constrained Hyper-Connections，流形约束超连接）的新架构。相信各位道友当时心里是五味陈杂：终于又可以抄作业了，等等，为啥你要元旦发啊，还让不让人过节啦。该研究目标在不损失传统HC（超链接）性能增益的基础上，改善其在大模型训练过程中存在的不稳定性问题。这次创新并非简单的组件替换，而是对神经网络宏观拓扑的一次重构。mHC将传统Transformer的单一残差流扩展为多流并行架构，通过引入严谨的几何流形约束，成功解决了HC在大规模训练中的数值不稳定和信号爆炸问题。本文将带大家深扒这篇论文的提出背景、底层原理和实验效果，并附带网友的实战代码资源。基本概念残差连接论文标题：Deep Residual Learning for Image Recognition 论文地址：https://arxiv.org/pdf/1512.03385 2015年，由微软亚洲研究院的何恺明团队提出ResNet，ResNet引入残差连接的概念，用以解决深层神经网络训练中的梯度消失/爆炸和网络退化问题，使得训练极深的网络成为可能。 \[\begin{align} x_{l+1} = x_l + F(x_l, W_l) \end{align} \] 在公式（1）中： \(x_l \in R^{1 \times d}\)为 \(l\)层网络输入 \(F\)为对 \(l\)层进行的非线性变换，如卷积、Attention或MLP等 \(x_{l+1} \in R^{1 \times d}\)为该层的输出传统的网络试图对每层的输入 \(x\) 直接学习目标映射 \(H(x)\)。而残差网络的设计思想是：既然直接学习很难，不如让网络去学习每层的残差， \[\begin{align} F(x) = H(x) - x \end{align} \] 公式（1）和公式（2）本质是一样的：公式（2）中的 \(F(x)\)即为公式（1）的 \(F\) 公式（2）中的\(H(x)\)即为公式（1）的\(x_{l+1}\) 公式（2）中的 \(x\) 即为公式（1）的\(x_l\) 这就像是把原始文件\(x\)复印了一份直接交给下一个人，同时附上一张便利贴，上面写着这一层所做的修改\(F(x)\)。下一个人收到的是「原件 + 修改意见」，该设计的关键特性是恒等映射（Identity Mapping）能力。在网络初始化的早期阶段，权重通常很小\(F(x) \approx 0\)。此时： \[\begin{align} x_{l+1} \approx x_l + 0 = x_l \end{align} \] 这意味着，信号像是在高速公路上一样，毫无阻碍地从第一层直通最后一层。梯度也可以沿着这条高速公路无损地回传。正是这一特性，使得训练成百上千层的网络（如GPT-4, DeepSeek-V3）成为可能。超连接（Hyper-Connections, HC）论文标题：HYPER-CONNECTIONS 论文地址：https://arxiv.org/pdf/2409.19606 残差连接的问题标准的残差连接强制要求输入信号与经过变换的信号以 1:1 的比例叠加，虽然保证了梯度的高速公路，但也带来了两个问题：信息流瓶颈：原来只有一条残差通道，所有信息不管是简单细节还是高层抽象，都挤在同一条路上传。这就像所有车都走一条车道，没法灵活分配路线，模型没法根据需要把信息送到最合适的地方。表示坍塌：网络特别深的时候，为了不崩、训练稳定，很多层其实学不到有用的新东西，只能改一点点、几乎等于没改。结果就是白白浪费算力，提取出来的特征都长得差不多，没有多样性，表达能力变弱。在上面的背景下，字节提出了Hyper-Connections的模型结构来改进传统的残差连接结构。通过扩展残差流宽度和多样化连接模式，拓展了过去十年中广泛应用的残差连接范式。 HC的核心思想是将原本单一维度的残差流扩展为\(n=4\)个并行的流，然后乘以一个权重矩阵\(H_l^{res}\)。

DeepSeek如何仅增加6.7%开销重构ResNet残差连接？

相关推荐