如何通过7个关键指标显著提高RAG模型的准确率?

摘要:原文: https:mp.weixin.qq.comsVV29xpdOMEkbz4iXmD_szg 在上一篇 RAG评测完整指南:指标、测试和最佳实践 中,我们对RAG系统中各个模块的评估方法进行系统的阐述,并没有详细介绍每个模块设
原文: https://mp.weixin.qq.com/s/VV29xpdOMEkbz4iXmD_szg 在上一篇 RAG评测完整指南:指标、测试和最佳实践 中,我们对RAG系统中各个模块的评估方法进行系统的阐述,并没有详细介绍每个模块设计的具体指标、指标的计算方法。从本篇开始,将深入RAG系统的各个模块(如检索、排序、生成),探讨各个模块有哪些评估指标,及这些指标的计算方法。 1. 核心要点 RAG系统的检索环节本质是排序任务,目标是返回与用户查询高度相关的上下文片段列表,为生成环节提供精准支撑。 评估RAG排序质量时,需具备<查询,上下文>对形式的预测结果,作为真实标签的二元或分级相关性得分,并确定Top-K参数,即衡量前K个检索结果中,有多少是相关的。 预测指标:准确率(Precision at K)、召回率(Recall at K)评估 排序指标:NDCG、MRR、MAP等评估检索准确性与排序合理性 2. 什么是RAG系统的检索核心? RAG系统的核心流程包含检索-生成两大环节,其中,检索环节本质是排序任务:系统根据用户的查询意图,从海量知识库中筛选、排序相关上下文片段,最终返回相关度Top-K的结果作为模型生成答案的依据。 想象这样的场景,当用户向RAG系统提问Transformer模型的核心创新点是什么? RAG系统的执行流程大致如下:a) 首先,从知识库中检索相关文档片段,包括注意力机制原理、编码器-解码器结构说明、与传统模型的差异对比等内容;b) 通过排序算法进一步筛选最贴合查询的片段优先呈现给生成模块;c)最终输出准确、有依据的答案。这一过程中,检索排序质量直接决定了生成答案的准确性与可靠性,若检索排序失误导致无关上下文被优先选用,可能引发生成内容偏离主题或出现事实错误。 下面,我们聊聊RAG系统、推荐系统和检索系统的共同点、差异点。 三者的相同点 核心目标 从大规模数据集中,根据特定需求,筛选出符合条件的信息,避免对全量数据进行遍历计算,本质是信息过滤与精准触达的工具。 底层技术 都需要构建数据索引(如倒排索引、向量索引),依赖相似度计算算法(如余弦相似度、BM25),且都需要处理海量非结构化 / 结构化数据的存储与快速查询,提升信息获取效率 三者的差异点 维度 RAG 系统 推荐系统 检索系统 用户需求类型 隐性 / 显性需求,需要 「理解 + 生成的深度加工」 隐性需求为主,用户无明确查询 显性需求为主,用户输入明确关键词 / 条件 数据流向 用户查询 → 检索知识 → 大模型生成回答 用户行为 → 分析偏好 → 推送内容 用户查询 → 匹配索引 → 返回结果 输出形式 自然语言文本(回答、摘要等) 内容列表(商品、视频、文章) 结果列表(文档、链接、数据条目) 典型应用场景 智能问答、知识库助手、企业客服机器人 电商商品推荐、短视频推荐、新闻推荐 搜索引擎(百度 / 谷歌)、文件检索、数据库查询 本篇将涵盖RAG系统检索排序的核心指标,从基础的Precision、Recall到复杂的NDCG、MAP等。 3. 评估原则 在深入探讨具体指标前,需要定义好检索排序评估的基本原则,主要围绕输入数据、相关性定义、Top-K参数三大核心要素。 3.1 输入数据 这里介绍的都是需要真值的指标,因此,评估RAG检索/排序质量时,数据需要满足<预测结果,真实标签>数据对的模式,具体定义如下: 预测结果:RAG检索/排序模块针对每个查询生成的上下文排序列表(含查询-上下文对及相关性得分/排名)。 真实标签:反映上下文与查询实际相关性的标注(二元标签或分级得分),用于验证排序结果的准确性。 RAG系统的排序评估数据集通常结构如下: 查询ID 上下文ID 预测值(相关性得分) 查询1 片段A 0.92 查询1 片段B 0.78 查询1 片段C 0.15 其中,上下文可为知识库中的文档片段、句子或段落,是RAG系统生成答案的直接依据。为判断检索排序优劣,需将预测结果与真实标签对比,示例如下: 查询ID 上下文ID 预测值(相关性得分) 目标值(实际相关性) 查询1 片段A 0.92 1(高度相关) 查询1 片段B 0.78 0(无关) 查询1 片段C 0.15 1(中等相关) 3.2 什么是相关性? 相关性是RAG排序评估的核心,指上下文片段对回答用户查询的有用性,直接决定该片段是否能为生成模块提供有效支撑。
阅读全文