专题:深度学习
共147篇相关文章

深度学习大模型如何全景解析多模态大模型学习7?
多模态(Multimodality)是指融合并处理两种或两种以上类型信息或数据的方法与技术。在机器学习和人工智能领域,常见的数据类型包括文本、图像、视频、音频及传感器数据等。多模态系统旨在利用多种模态的信息,以提升任务性能、丰富用户体验,或...

RDK-OE-LLM工具链量化SigLip全流程如何为?
作者:SkyXZ CSDN:SkyXZ~-CSDN博客 博客园:SkyXZ - 博客园 LLM工具链工具包:wget https:d-robotics-aitoolchain.oss-cn-beijing.aliyuncs.comll...

Vision Transformer (ViT) 技术的原理和应用究竟有何奥秘?
论文:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 概述 Vision Transformer (ViT) 将...

如何用RNN实现生成?
读完长文忘头句?RNN就像玩聚会传话游戏,采用接力方式记忆上下文。但因“梯度消失”,导致信息在传递中被不断稀释。结果就像患了健忘症,只能记住最近的词。3分钟通俗带你直观理解RNN的短视与遗忘!...

如何3分钟掌握LSTMGRU实操技巧?
零基础3分钟搞懂LSTM。它解决了基础AI阅读长文“阅后即焚”的痛点。如同给AI大脑配备了“记事本”与负责遗忘、输入、输出的“精明秘书”(门控机制),使AI学会了选择性长期记忆,精准抓住海量数据核心。...

如何用3分钟实操掌握深度学习AI中的Attention机制?
Gemini 说
本博客详解 Attention 机制。从翻译“Apple”的上下文场景出发,揭示它如何克服传统模型记忆瓶颈。通过动态分配“注意力权重”,让 AI 学会精准“聚焦”关键词句,彻底读懂语境。...

PyTorch求余操作如何实现?
本文通过几个示例,介绍了在Python、Numpy和PyTorch三个不同的框架下,对于求余数函数的定义。比较特殊的是pytorch中的fmod函数,并不符合数学上的求余数方法,而是需要使用remainder函数。...

MindSpore的ReduceMax和max操作有何本质区别?
本文介绍了在pytorch和mindspore中两种计算张量最大值的算子,如果直接使用max算子,两者的输出都是最大值元素和最大值索引。但是mindspore中额外的支持了ReduceMax算子,可以允许我们只输出最大值而不输出最大值索引。...

gather算子大不同,具体差异是什么?
本文通过2个实际的案例,演示了一下gather算子在MindSpore框架下PyTorch框架下的异同点。两者的输入都是tensor-axis-index,一个是输入顺序上略有区别,另一个是对于输入的张量索引维度的要求。在PyTorch中,...

Tensor Scatter Add算子异同点有哪些?
本文介绍了MindSpore中的tensor_scatter_add算子的用法,可以对一个多维的tensor在指定的index上面进行加和操作。在PyTorch中虽然也有一个叫scatter_add的算子,但是本质上来说两者是完全不一样的操...

PyTorch中如何实现开立方运算?
本文介绍了在PyTorch中直接使用幂次函数计算有可能导致的计算结果异常的问题。由于PyTorch中并未像Numpy和MindSpore一样直接支持cbrt开立方函数,因此这里也提供了一个在PyTorch中计算开立方的函数。...

PyTorch张量如何实现逆序操作?
本文简单的介绍了一个在Pytorch中对张量进行逆序操作的方法相比于其他的框架,例如numpy和mindspore等的区别。在其他框架中我们可以直接使用slice的方法对一个张量做逆序,但是在Pytorch中,可能需要使用到一个flip函数...

PyTorch的take_along_dim如何为?
接前面一篇take_along_axis的文章,本文主要介绍在PyTorch框架下,功能基本一样的函数take_along_dim。二者除了命名和一些关键词参数不一致之外,用法是一样的。需要注意的是,两者都要求输入的数组和索引数组维度数量一...

Torch中的tensor size是多少呀?
本文重点介绍了一下如何在PyTorch中去计算一个高维tensor的大小,也就是元素的总数。在其他框架中我们需要使用size函数来获取,而在PyTorch框架中这个接口被调整为numel,本文给出了两个具体代码示例。...

CLIP如何成为连接视觉与语言的桥梁的纽带?
什么是 CLIP? CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练)是 OpenAI 提出的一种多模态预训练模型。它采用对比学习和双塔架构,实现了视觉与语言的统一表征。 CLI...
