深度学习进阶

欢迎访问ZJ新闻社SEO

专题：深度学习进阶

共7篇相关文章

深度学习进阶中，如何理解归纳偏置与蒸馏的深层联系？
在上一篇，我们已经完成了 Vision Transformer的完整逻辑：把图像切成 patch 当作 token，送入 Transformer Encoder 做全局建模。但我们也提到了， ViT 存在一个绕不开的痛点：没有足够大的数...
4天前3阅读
深度学习进阶（七）Data-efficient Image Transformer如何实现高效数据利用？
在前面的分析中，我们已经明确了 ViT 的核心问题：由于归纳偏置较弱，ViT 对数据规模高度依赖。就这个问题，我们又展开了一种改进思路：通过蒸馏人为引入一个“软约束”，缩小搜索空间，从而减少数据依赖。于是，我们就得到了 ViT 的其...
4天前3阅读
深度学习进阶（四）中，Transformer整体结构是如何设计的？
在上一篇中，我们已经完整展开了 Transformer Block 的内部结构，包括多头注意力、残差连接、LayerNorm 以及 FFN。至此，就可以正式进入 Transformer 的整体结构了。在原论文中，Transformer...
10天前3阅读
深度学习进阶（五）Vision Transformer有哪些应用？
在上一篇，我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。从结果上看，Transformer 在 NLP 领域带来了范式级的突破：通过自注意力机制实现了对序列的全局建模能力。然而，实际上，原始 Transforme...
10天前5阅读
深度学习进阶（一）从注意力到自注意力，哪个概念更复杂？
新分类续接之前的注意力机制内容开始，展开一些更现代的理论。在之前的深度学习内容中，我们已经介绍了注意力机制的核心流程，其本质可以概括为：在解码的每一个时间步增加注意力计算得到上下文向量，让模型可以根据当前状态，从输入序列中动态选择相关信息...
13天前3阅读
深度学习进阶（二）中，多头自注意力机制（Multi-Head Attention）的原理是什么？
在第一篇中，我们已经得到了自注意力的核心公式： [mathrm{Attention}(mathbf{Q},mathbf{K},mathbf{V})=mathrm{softmax}left(frac{ mathbf{Q}m...
13天前4阅读
深度学习进阶（三）Transformer Block是什么？
在上一篇我们已经完成了多头自注意力机制的内容，并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元，它不仅创造并应用了多头自注意力机制，还结合...
13天前3阅读