专题:大模型
共120篇相关文章

DeepSeek-V3.2如何实现推理性能提升161%的优化秘诀?
相比于未优化的 vLLM 基线,经过针对性调优的 DeepSeek-V3.2 在 NVIDIA H200 集群上实现了 57.8% 至 153.6% 的吞吐量提升。...

AI推理融资背后,系统化与治理趋势是否显现?
最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元: 图源:Inferact SGLang 团队也成立了 Rad...

GPUStack在SOAR时,如何让开源大模型推理速度再提升一倍?
随着大模型应用规模持续扩张,如何在有限算力条件下提升推理效率,已成为 AI 基础设施建设的核心课题。 GPUStack 致力于统一管理异构 GPU 资源,实现高性能、稳定且可扩展的 AI 模型服务。在这一背景下,GPUStack 与 SOA...

GPUStack v2.1如何实现从模型推理到开源AI基础设施平台的全面演进?
随着大模型进入生产环境,AI推理基础设施的复杂度快速上升。GPUStack v2.1 重点增强六大核心能力,为企业构建统一、高性能的AI模型服务平台...

GPUStack 是一个开源的GPU加速库,旨在为开发者提供简单易用的接口来利用GPU进行并行计算。它通常用于科学计算、机器学习、图像处理等领域,允许用户在不深入GPU编程细节的情况下,利用GPU的强大计算能力。以下是关于GPUStack的一些基本信息:1
通过 GPUStack 提供高效的模型部署与管理能力,并将模型接入 MaxKB,即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。...

GPUStack开源GPU集群管理器,专为大模型打造,正式发布了吗?
经过 Seal 研发团队几个月来持续的开发和测试,我们满怀期待及热情地发布新的产品 GPUStack,GPUStack 是一个用于运行 LLM(大型语言模型)的开源 GPU 集群管理器。尽管如今大语言模型作为公共的云上服务已经被广泛推广并在...

如何快速搭建45分钟私有MaaS平台及生产级Qwen3模型服务?
今天凌晨,阿里通义团队正式发布了 Qwen3,涵盖六款 Dense 模型(0.6B、1.7B、4B、8B、14B、32B)和两款 MoE 模型(30B-A3B 和 235B-A22B)。其中的旗舰模型 Qwen3-235B-A22B 在代码...

如何用昇腾多机推理快速部署 DeepSeek R1 超大规模模型?
在昇腾 NPU 上部署超大规模模型,往往面临一个现实难题:目前主流的官方推理引擎 MindIE 的多机分布式推理虽然性能表现尚可,但配置流程异常复杂。从环境准备、配置初始化到参数细节调整,每一步都需要格外谨慎,否则极易因细节遗漏或配置错误而...

GPUStack v2开源后,大模型推理下半场释放算力潜能,如何重塑?
在大模型推理的下半场,GPUStack v2 不再是简单的模型服务平台,而是高性能推理生态的协调者与赋能者。...

AI编程:代码量多,效果更佳吗?
捏着鼻子用多了就会发现:各家模型都有自己擅长的能力,这与不同平台所掌握的优质数据有关系,比如电商跨境,本地生活,内容制作,行业分析等。...

从经典产品出发,大模型的发展方向会是怎样的呢?
信息化,数字化,智能化,作为一个正好横跨这三个阶段的互联网十年民工,想聊一聊这个过程中:几款经典的产品。...

独立开发AI产品,有哪些细节需要注意?
如果AI产品是纯粹的工具属性,等于把智能的模型封装成固定的功能;如果是协作的模式,则需要在交互场景中,开放更多的提示词给用户输入。...

如何进行大模型应用开发实战?
在接触AI应用开发的这段时间,我以为会像以前学.net,学java,学vue一样。先整个hello world,再一步一步学搭功能,学搭框架直到搭一个系统出来。然而,理想总是很丰满,现实很骨感。在实践的过程中各种千奇百怪的问题:概念太多。h...

如何高效访问Python中的大型模型?
Python访问大模型很方便,也让大家构建复杂的系统更加的灵活。
访问的方式也比较灵活,主要有http api,package api的方式。
这里简单汇总了常用的三种方式,包括ollama的,http ap...

如何用Python将Web前端交互与大型模型结合实现问答?
一个简单的演示,如何把大模型应用集成到自己的应用场景当中。
这里的场景我们模拟的是在吃鸡游戏中,一个作战计划,是否符合老六的行为规范。...
