DeepSeek的UE8M0 FP8技术为何引发A股芯片板块热议?
摘要:DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat templ
DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了:
新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。 国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。这里面有几个疑问:这个UE8M0 FP8到底是什么?下一代国产芯片,又是指什么?
UE8M0 FP8是什么?“UE8M0 FP8”这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的“缩放因子”。
MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。它通过:
块缩放(Block Scaling):将一个张量(Tensor)分割成小块(例如每32个元素一块),每个块共享一个缩放因子(Scale Factor,常用UE8M0格式存储)。这有效扩展了低精度格式的动态范围,避免了数值溢出或精度损失。硬件原生支持:新一代AI芯片(如NVIDIA Blackwell)的Tensor Core已原生支持MX格式计算,能在单元内完成数据、缩放因子计算和矩阵乘法,显著提升效率。对于AI计算,尤其是大模型训练和推理,MXFP8能带来:
计算效率提升:相比FP16,FP8计算吞吐量可提升约2倍。
显存占用降低:模型参数显存占用减半,允许部署更大模型或降低硬件成本。
功耗降低:数据搬运和计算的能耗显著下降。国际主流FP8标准如NVIDIA Hopper架构支持的E4M3(4位指数+3位尾数)和E5M2(5位指数+2位尾数),均采用“指数位+尾数位”的混合编码模式,其中E4M3通过增加尾数位提升精度,E5M2则通过增加指数位扩展动态范围,但两者均需在有限的8位空间内平衡精度与范围。而UE8M0 FP8则突破这一框架,采用“8位指数位(E8)+0位尾数位(M0)”的纯指数编码设计,通过舍弃尾数换取极致动态范围,形成独特的“范围优先”设计哲学。
格式指数位尾数位符号位核心设计目标动态范围典型值E4M3431精度优先(适合推理)1e-15 至 1e15E5M2521平衡精度与范围(通用场景)1e-15 至 1e15UE8M0800动态范围优先(大模型训练)1e-38 至 1e38
UE8M0的“U”(Unsigned)设计针对深度学习激活值非负的特性,舍弃符号位以释放更多位资源用于指数编码,同时简化硬件电路中的符号处理逻辑。其“E8M0”结构通过8位指数位实现动态范围达2^255,结合隐式归一化技术(如IEEE 754隐藏位机制),使数值表示范围覆盖1e-38至1e38,远超传统FP8的1e-15至1e15。这里的0位尾数设计并非放弃数值表示能力,而是通过IEEE 754标准中的隐藏位机制,默认尾数部分为1,仅通过指数位调节数值大小,使格式仅表示2的整数次幂倍数,专注于实现极端动态范围。
UE8M0将FP8动态范围提升两个数量级,使其能覆盖大模型训练中梯度从1e-38的微小波动到1e38的极端峰值,从根源上抑制梯度爆炸问题。在700亿参数模型测试中,该格式可使梯度更新过程中的数值溢出率降低99.7%,为国产芯片部署超大规模模型提供关键数值稳定性保障。
在实际应用中,UE8M0的纯指数编码设计展现出对大模型训练的高效适配性。针对671B参数规模的中文大模型,采用UE8M0格式的国产芯片可减少50%的GPU用量,同时模型输出速度提升3.15倍,这得益于其精简的硬件电路设计(无符号位和尾数处理单元)与超大动态范围带来的数值稳定性提升。相比之下,传统E4M3格式因动态范围不足,在相同模型训练中需额外引入梯度裁剪机制,导致15%-20%的计算开销增加。
