共2篇相关文章
TensorRT 是 NVIDIA 自家的高性能推理库,其 Getting Started 列出了各资料入口,如下: 本文基于当前的 TensorRT 8.2 版本,将一步步介绍从安装,直到加速推理自己的 ONNX 模型。 安装 进 Ten...
本文从零构建了一个轻量级、高性能的 C++ 语义搜索系统,基于 ONNX 运行 BGE 嵌入模型、FAISS 向量索引与 Markdown 语义分块,完整实现支持增删改查的生产级 RAG 检索后端。...