专题:深度学习进阶
共7篇相关文章

深度学习进阶中,如何理解归纳偏置与蒸馏的深层联系?
在上一篇,我们已经完成了 Vision Transformer的完整逻辑:把图像切成 patch 当作 token,送入 Transformer Encoder 做全局建模。 但我们也提到了, ViT 存在一个绕不开的痛点: 没有足够大的数...

深度学习进阶(七)Data-efficient Image Transformer如何实现高效数据利用?
在前面的分析中,我们已经明确了 ViT 的核心问题: 由于归纳偏置较弱,ViT 对数据规模高度依赖。 就这个问题,我们又展开了一种改进思路: 通过蒸馏人为引入一个“软约束”,缩小搜索空间,从而减少数据依赖。 于是,我们就得到了 ViT 的其...

深度学习进阶(四)中,Transformer整体结构是如何设计的?
在上一篇中,我们已经完整展开了 Transformer Block 的内部结构,包括多头注意力、残差连接、LayerNorm 以及 FFN。 至此,就可以正式进入 Transformer 的整体结构了。 在原论文中,Transformer...

深度学习进阶(五)Vision Transformer有哪些应用?
在上一篇,我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。 从结果上看,Transformer 在 NLP 领域带来了范式级的突破:通过自注意力机制实现了对序列的全局建模能力。 然而,实际上,原始 Transforme...

深度学习进阶(一)从注意力到自注意力,哪个概念更复杂?
新分类续接之前的注意力机制内容开始,展开一些更现代的理论。 在之前的深度学习内容中,我们已经介绍了注意力机制的核心流程,其本质可以概括为:在解码的每一个时间步增加注意力计算得到上下文向量,让模型可以根据当前状态,从输入序列中动态选择相关信息...

深度学习进阶(二)中,多头自注意力机制(Multi-Head Attention)的原理是什么?
在第一篇中,我们已经得到了自注意力的核心公式: [mathrm{Attention}(mathbf{Q},mathbf{K},mathbf{V})=mathrm{softmax}left(frac{ mathbf{Q}m...

深度学习进阶(三)Transformer Block是什么?
在上一篇我们已经完成了多头自注意力机制的内容,并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元,它不仅创造并应用了多头自注意力机制,还结合...
