专题:llm
共160篇相关文章

有哪些数学数据集如MATH、GSM8K、AIME24等常被使用?
最近在读这篇文章: 论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源:NeurIPS 2025。 arxiv:http...

LLM | VeRL相关文档都包含哪些内容?
目录 PPO 示例脚本的 readme GRPO 示例脚本的 readme PPO 示例脚本的 readme examplesppo_trainerREADME.md 近端策略优化(Proximal Policy Optimizatio...

VeRL代码中LLM全面算法的有哪些细节未被发现?
目录1 代码结构简介RayPPOTrainer fit() 函数的基本流程advantage 的计算过程与 ref policy 的 KL 散度 loss 的计算VeRL 的 evaluation 代码目前对我来说比较 minor 的点2...

如何构建Skills与知识系统,使AI拥有特定领域的专业能力?
Skills 与知识系统:让 AI 具备领域专业能力 AI 核心技能系列 · 第 10 篇 导语 通用大模型什么都会一点,但什么都不精。你让 GPT 写一份金融合规报告,它写得"像那么回事...

多模态与模型评测,如何拓展AI的边界?
多模态与模型评测:拓展 AI 的边界 AI 核心技能系列 · 第 11 篇 导语 大模型不只是"文字模型"了——它能看图、听声音、理解视频。同时,一个经常被忽略但...

如何从技能提升到AI岗位全景,顺利转行获得Offer?
AI 岗位全景与转行指南:从技能到 Offer AI 核心技能系列 · 第 12 篇(完结篇) 导语 学了前面 11 篇技术文章,最终要落到一个问题——怎么拿到 Offer? 不讲鸡汤,只讲可执行的策略。先说最重要...

Claude Code 黑客马拉松:5 个获奖项目,没有一个是关于窃取数据或破坏系统的。以下是五个获奖项目:1. **智能城市交通管理系统**:该项目利用人工智能技术优化城市交通流量,减少拥堵,提高道路使用效率。2. **基于区块链的供应链追踪系统**:通
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的 Anthropic 刚办完一场黑客马拉松,500 人参赛,用的是最新的 Opus 4.6,时间是一整周。 按理...
![[MCP][06]持久化记忆是什么?](/view/img/nopic.png)
[MCP][06]持久化记忆是什么?
前言 在之前的案例中,会话历史都保存在内存中,一旦程序重启,会话历史就会丢失,导致AI没法根据会话历史推测用户当前意图。这就像一个人记性特别差,每次见面都忘了之前聊过什么,让人感觉很不专业。 如果你之前使用过LangGraph,那应该知道L...

FastAPI+Streamlit打造ChatBot?
前言 本文使用FastAPI+Streamlit实现一个流式响应类ChatGPT的LLM应用,这里只是一个demo,后续会基于此实现一个完整的MCP Client + MCP Server的MCP应用。...

MCP的logging和progress功能具体是如何实现的?
除了基础的Prompt、Resource和Tool概念,FastMCP还提供了以下功能:Sampling、Elicitation、Logging、Progress、Proxy、Middleware、Composition和Authentic...
