有哪些资源适合学习transformer模型?

摘要:原文:https:mp.weixin.qq.comsqap5mePkP2rVbVSMsaBUMw 欢迎关注公zh: AI-Frontiers 苏剑林大师的博客 序号 发布日期 文章标题 链接 1 2021-03-08 Sinusoi
原文:https://mp.weixin.qq.com/s/qap5mePkP2rVbVSMsaBUMw 欢迎关注公zh: AI-Frontiers 苏剑林大师的博客 序号 发布日期 文章标题 链接 1 2021-03-08 Sinusoidal位置编码追根溯源 https://spaces.ac.cn/archives/8231 2 2021-03-23 博采众长的旋转式位置编码 https://spaces.ac.cn/archives/8265 3 2021-04-22 从Performer到线性Attention https://spaces.ac.cn/archives/8311 4 2021-05-10 二维位置的旋转式位置编码 https://spaces.ac.cn/archives/8397 5 2021-08-06 作为无限维的线性Attention https://spaces.ac.cn/archives/8566 6 2022-12-28 旋转位置编码的完备性分析 https://spaces.ac.cn/archives/9403 7 2023-01-12 长度外推性与局部注意力 https://spaces.ac.cn/archives/9431 8 2023-01-31 长度外推性与位置鲁棒性 https://spaces.ac.cn/archives/9444 9 2023-05-12 一种全局长度外推的新思路 https://spaces.ac.cn/archives/9513 10 2023-07-06 RoPE是一种β进制编码 https://spaces.ac.cn/archives/9675 11 2023-07-31 将β进制位置进行到底 https://spaces.ac.cn/archives/9700 12 2023-08-07 无限外推的ReRoPE? https://spaces.ac.cn/archives/9708 13 2023-08-14 逆用Leaky ReRoPE https://spaces.ac.cn/archives/9723 14 2023-08-24 当HWFA遇见ReRoPE https://spaces.ac.cn/archives/9731 15 2023-11-20 Key归一化助力长度外推 https://spaces.ac.cn/archives/9859 16 2024-01-26 "复盘"长度外推技术 https://spaces.ac.cn/archives/9948 17 2024-03-29 多模态位置编码的简单思考 https://spaces.ac.cn/archives/10040 18 2024-05-29 RoPE的底数选择原则 https://spaces.ac.cn/archives/10122 19 2025-04-18 第二类旋转位置编码 https://spaces.ac.cn/archives/10862 20 2025-05-04 MLA好在哪里?(上) https://spaces.ac.cn/archives/10907 21 2025-07-10 MLA好在哪里?(下) https://spaces.ac.cn/archives/11111 入门系列 序号 发布日期 文章标题 链接 备注 1 2017-06-12 Attention Is All You Need https://arxiv.org/abs/1706.03762 Transformer 的奠基之作,定义了整个领域的演进方向 2 2018-06-27 The Illustrated Transformer http://jalammar.github.io/illustrated-transformer/ 图解Transformer | The Illustrated Transformer 视觉化讲解的行业标准,极大地降低了直观理解的门槛 3 2023-01-27 The Transformer Family (Lilian Weng) https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/ https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/ 由 OpenAI 首席研究员撰写,提供了严谨的架构演进综述与技
阅读全文