专题:深度学习
共147篇相关文章

如何将VGG深度学习模型为?
3分钟零基础搞懂VGGNet!为何AI偏爱3x3小卷积核?本文通过生动比喻与极简代码,揭秘两个小窗口叠加如何完美平替5x5大窗口。不仅视野不变、参数更少,更能加深网络实现特征的深度提炼。...

如何通过Transformer Explainer深入理解大语言模型的工作原理?
Transformer Explainer 使用指南:在交互中理解大语言模型 写在前面 你可能听说过 ChatGPT、Claude、Gemini 这些 AI 助手,但你知道它们背后的核心技术是什么吗?答案是 Transformer——一种...

从Transformer到基础模型,时空预测技术有哪些全景解读?
**时空数据**是同时包含**时间维度**和**空间维度**信息的数据。随着物联网传感器的普及和智能设备的爆发式增长,我们正处于一个时空大数据时代。从交通流量、天气变化到人体运动,时空预测在众多领域扮演着关键角色。...

如何用数学和代码实现交叉熵损失函数?
交叉熵损失函数 这样吗? i=0 ——> n P_i = [3.0,1.0,−1.0] softmax(P_i) = [0.88, 0.12, 0.00] p_i = [1,0,0] L = -(p_i *- soft...

反向传播如何为?
1 懂了懂了,还是这样好理解。。。。那么反向传播的计算呢?通过y1, y2, y3 求出x1 ? 太好了!现在我们来推导反向传播的计算。这是深度学习中最核心的部分! 1. 问题设定 我们有一个简单的三层结构: 输入 x → 线性层(得 z)...

菜鸟如何从零开始,深入理解深度学习?
菜鸟生啃深度学习系列(一)我对深度学习初步理解 前言 我对于想要学习深度学习的想法由来已久了,从高中的某一次比赛经历中偶然了解到这个领域,但自从进入了大学并选择了人工智能专业,接触了大量的深度学习项目、发展、思想,并了解到了脑神经学领域更加...

如何构建识别的神经网络?
import torch.nn as nn class Net(nn.Module): """ 定义一个简单点的神经网络,卷积,池化,激活,全连接 嗯.....够...

Tensorflow2深度学习有哪些十必知技巧,如何高效掌握?
博主根据自身多年的深度学习算法研发经验,整理分享以下十条必知。 含参考资料链接,部分附上相关代码实现。 独乐乐不如众乐乐,希望对各位看客有所帮助。 待回头有时间再展开细节说一说深度学习里的那些道道。 有什么技术需求需要有偿解决的也可以邮件或...

深度学习优化器算法中,有哪些巧思可以速览为?
这一篇博文想写很久了,一直没有下笔,核心原因也是有一些待办的思路在攻关验证。 我们先从一个核心的问题出发, 1. 为什么要研究优化器算法? 它的关联问题:训练为什么要调参,调的是什么参? 如果就这个问题去问各种大语言模型,它们能给出一堆的理...

OpenRLHF源码中,如何模型处理以适应?
本文主要介绍了在 **OpenRLHF**中模型框架设计,主要分为3类模型:1、`actor model`;2、`critic model`;3、`reward model`这三类模型中分别起到作用:1、直接更具prompt输出respon...

ConvNeXt模型详解及代码,如何实现?
这里介绍新的一个Backbone:ConvNeXt,主要来自两篇比较老的来自Meta论文:
1、《**A ConvNet for the 2020s**》
> arXiv:2201.03545&...

VLLM模型推理框架的原理和整体架构是怎样的?
Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softm...

如何高效运用TSLiB库进行深度学习时间序列分析?
TSLiB是一个为深度学习时间序列分析量身打造的开源仓库。它提供了多种深度时间序列模型的统一实现,方便研究人员评估现有模型或开发定制模型。TSLiB涵盖了长时预测(Long-term forecasting)、短时预测(Short-term...

深度学习大模型,如何掌握大语言模型基础知识?
大语言模型(Large Language Model,LLM)是一类基于Transformer架构的深度学习模型,主要用于处理与自然语言相关的各种任务。简单来说,当用户输入文本时,模型会生成相应的回复或结果。它能够完成许多任务,如文本续写、...

深度学习大模型中,如何进行提示词工程学习?
在文章大语言模型基础知识里,提示词工程(Prompt Engineering)作为大语言模型(Large Language Model,LLM)应用构建的一种方式被简要提及,本文将着重对该技术进行介绍。 提示词工程就是在和LLM聊天时,用来...
