共2篇相关文章
相比于未优化的 vLLM 基线,经过针对性调优的 DeepSeek-V3.2 在 NVIDIA H200 集群上实现了 57.8% 至 153.6% 的吞吐量提升。...
在昇腾 NPU 上部署超大规模模型,往往面临一个现实难题:目前主流的官方推理引擎 MindIE 的多机分布式推理虽然性能表现尚可,但配置流程异常复杂。从环境准备、配置初始化到参数细节调整,每一步都需要格外谨慎,否则极易因细节遗漏或配置错误而...