如何从零基础精通Transformer及其全解密?

摘要:Transformer架构这五年来深受人们重视。 本文是以逐行代码的形式对原论文进行注释的版本。 本文对原论文一部分章节进行了重新排序和删除,并在整个文档中添加了注释。 本文本身是一个可以运行的笔记(ipynb),理论上完全可以直接复现。
Transformer从入门到精通(The Annotated Transformer) Attention is All You Need v2022: Austin Huang, Suraj Subramanian, Jonathan Sum, Khalid Almubarak, and Stella Biderman. Original: Sasha Rush. 翻译: YeXuan Wu SDU Transformer架构这五年来深受人们重视。 本文是以逐行代码的形式对原论文进行注释的版本。 本文对原论文一部分章节进行了重新排序和删除,并在整个文档中添加了注释。 本文本身是一个可以运行的笔记(ipynb),理论上完全可以直接复现。 注意:翻者在翻译过程中对尾部章节进行了删减,本文只涉及相应的理论部分。以及对部分代码进行了修改,增添注释。
阅读全文