有哪些资源适合学习transformer模型?
摘要:原文:https:mp.weixin.qq.comsqap5mePkP2rVbVSMsaBUMw 欢迎关注公zh: AI-Frontiers 苏剑林大师的博客 序号 发布日期 文章标题 链接 1 2021-03-08 Sinusoi
原文:https://mp.weixin.qq.com/s/qap5mePkP2rVbVSMsaBUMw
欢迎关注公zh: AI-Frontiers
苏剑林大师的博客
序号
发布日期
文章标题
链接
1
2021-03-08
Sinusoidal位置编码追根溯源
https://spaces.ac.cn/archives/8231
2
2021-03-23
博采众长的旋转式位置编码
https://spaces.ac.cn/archives/8265
3
2021-04-22
从Performer到线性Attention
https://spaces.ac.cn/archives/8311
4
2021-05-10
二维位置的旋转式位置编码
https://spaces.ac.cn/archives/8397
5
2021-08-06
作为无限维的线性Attention
https://spaces.ac.cn/archives/8566
6
2022-12-28
旋转位置编码的完备性分析
https://spaces.ac.cn/archives/9403
7
2023-01-12
长度外推性与局部注意力
https://spaces.ac.cn/archives/9431
8
2023-01-31
长度外推性与位置鲁棒性
https://spaces.ac.cn/archives/9444
9
2023-05-12
一种全局长度外推的新思路
https://spaces.ac.cn/archives/9513
10
2023-07-06
RoPE是一种β进制编码
https://spaces.ac.cn/archives/9675
11
2023-07-31
将β进制位置进行到底
https://spaces.ac.cn/archives/9700
12
2023-08-07
无限外推的ReRoPE?
https://spaces.ac.cn/archives/9708
13
2023-08-14
逆用Leaky ReRoPE
https://spaces.ac.cn/archives/9723
14
2023-08-24
当HWFA遇见ReRoPE
https://spaces.ac.cn/archives/9731
15
2023-11-20
Key归一化助力长度外推
https://spaces.ac.cn/archives/9859
16
2024-01-26
"复盘"长度外推技术
https://spaces.ac.cn/archives/9948
17
2024-03-29
多模态位置编码的简单思考
https://spaces.ac.cn/archives/10040
18
2024-05-29
RoPE的底数选择原则
https://spaces.ac.cn/archives/10122
19
2025-04-18
第二类旋转位置编码
https://spaces.ac.cn/archives/10862
20
2025-05-04
MLA好在哪里?(上)
https://spaces.ac.cn/archives/10907
21
2025-07-10
MLA好在哪里?(下)
https://spaces.ac.cn/archives/11111
入门系列
序号
发布日期
文章标题
链接
备注
1
2017-06-12
Attention Is All You Need
https://arxiv.org/abs/1706.03762
Transformer 的奠基之作,定义了整个领域的演进方向
2
2018-06-27
The Illustrated Transformer
http://jalammar.github.io/illustrated-transformer/
图解Transformer | The Illustrated Transformer
视觉化讲解的行业标准,极大地降低了直观理解的门槛
3
2023-01-27
The Transformer Family (Lilian Weng)
https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/
https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/
由 OpenAI 首席研究员撰写,提供了严谨的架构演进综述与技
