专题:大模型训练
共8篇相关文章

Context Engineering过时了吗?AI新风口‘Harness Engineering’崛起,OpenAIAnthropic齐发力?
原文: https:mp.weixin.qq.comsO_K5s6qjI7Kp_eOU_we4Fg 欢迎关注公zh: AI-Frontiers LLM往期文章推荐 3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进 从...

GLM技术复盘:21篇论文深度解读,智谱模型家族是何方神圣?
原文: https:mp.weixin.qq.coms2KMaZPnLernKGLq2aLN_dQ 欢迎关注公zh: AI-Frontiers LLM往期文章推荐 3年,从0到全球领跑:万字长文拆解Deep...

Google 迎来「DeepSeek 时刻」的消息表明,该公司在深度学习领域取得了重要进展。具体到您提到的TurboQuant算法实现3bit无损、8的部分,这可能意味着以下内容:1. **3bit无损压缩**:TurboQuant算法可能是一种新的数据压
原文: https:mp.weixin.qq.comszI2GQhGkzWXPueg93_z5MA 欢迎关注公zh: AI-Frontiers 3月24日,谷歌在官方博客中推出革命性的压缩算法TurboQuant,相关内容将分别在...

Qwen模型家族进化史,27篇论文复盘,深度解读?
原文: https:mp.weixin.qq.coms6tpV4YXl7EM14E7i0492dA 欢迎关注公zh: AI-Frontiers LLM往期文章推荐 3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进 从...

LLM-RL算法中的PPODPOGRPOGSPO是什么?
原文: https:mp.weixin.qq.coms9KT9LrMTXDGHSvGFrQhRkg LLM-RL往期文章推荐 小白也能看懂的RL-PPO 收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项...

如何掌握LLM开发全链路,涵盖5大步骤和15大框架?
原文:https:mp.weixin.qq.comsoRUjkoUcHOrMtHfVHkr5Cw LLM往期文章推荐 小白也能看懂的RL-PPO 收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 &a...

DeepSeek大模型技术演进,3年从0到全球领跑,是如何实现的?
原文: https:mp.weixin.qq.comsMG9nB7VYK-N4Q3RQFiwcuw 关注gzh: AI-Frontiers 自2022年chatgpt发布以来,全球人工智能领域进入了以大语言模型(LLM)为核心的激烈...

DeepSeek如何仅增加6.7%开销重构ResNet残差连接?
原文: https:mp.weixin.qq.comsZuA3zSpVHo1-bGB2tQuRpg 关注gzh: AI-Frontiers 论文标题:mHC: Manifold-Constrained Hyper-Connectio...
