vLLM Ascend 是不是昇腾上最优的 EmbeddingReranker 推理方案?

摘要:在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。 mis-tei
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。 mis-tei 专注于文本向量生成与重排序能力,广泛应用于检索增强(RAG)、语义搜索等场景。 但在实际落地过程中,我们发现: 官方镜像可以使用,但接入成本较高 路径依赖、参数配置、运行方式存在一定门槛 在 GPUStack 中集成时,需要额外适配 基于这些问题,我们对官方镜像进行了重打包与简化处理,并以社区镜像形式提供,大幅降低接入复杂度。 本文将基于社区镜像,演示如何在 GPUStack 中接入 mis-tei 后端,并进行高性能 Embedding/Reranker 模型推理。 镜像说明 1. Ascend 官方镜像 swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-300I-Duo-aarch64 swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A2-aarch64 swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A3-aarch64 2. GPUStack 社区镜像(推荐) swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-300I-Duo-aarch64 swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A2-aarch64 swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A3-aarch64 3. 优化点说明 相比官方镜像,社区版本主要做了以下优化: ✅ 简化启动脚本,优化默认参数配置 ✅ 支持任意参数透传,增强灵活性 ✅ 开箱即用接入 GPUStack,降低使用门槛 重打包的具体实现细节,可参考社区后端仓库: https://github.com/gpustack/community-inference-backends/tree/main/mis-tei 接入 mis-tei 后端 在 GPUStack 中,可以通过自定义后端的方式接入 mis-tei。
阅读全文