如何通过7个关键指标显著提高RAG模型的准确率?
摘要:原文: https:mp.weixin.qq.comsVV29xpdOMEkbz4iXmD_szg 在上一篇 RAG评测完整指南:指标、测试和最佳实践 中,我们对RAG系统中各个模块的评估方法进行系统的阐述,并没有详细介绍每个模块设
原文: https://mp.weixin.qq.com/s/VV29xpdOMEkbz4iXmD_szg
在上一篇 RAG评测完整指南:指标、测试和最佳实践 中,我们对RAG系统中各个模块的评估方法进行系统的阐述,并没有详细介绍每个模块设计的具体指标、指标的计算方法。从本篇开始,将深入RAG系统的各个模块(如检索、排序、生成),探讨各个模块有哪些评估指标,及这些指标的计算方法。
1. 核心要点
RAG系统的检索环节本质是排序任务,目标是返回与用户查询高度相关的上下文片段列表,为生成环节提供精准支撑。
评估RAG排序质量时,需具备<查询,上下文>对形式的预测结果,作为真实标签的二元或分级相关性得分,并确定Top-K参数,即衡量前K个检索结果中,有多少是相关的。
预测指标:准确率(Precision at K)、召回率(Recall at K)评估
排序指标:NDCG、MRR、MAP等评估检索准确性与排序合理性
2. 什么是RAG系统的检索核心?
RAG系统的核心流程包含检索-生成两大环节,其中,检索环节本质是排序任务:系统根据用户的查询意图,从海量知识库中筛选、排序相关上下文片段,最终返回相关度Top-K的结果作为模型生成答案的依据。
想象这样的场景,当用户向RAG系统提问Transformer模型的核心创新点是什么?
RAG系统的执行流程大致如下:a) 首先,从知识库中检索相关文档片段,包括注意力机制原理、编码器-解码器结构说明、与传统模型的差异对比等内容;b) 通过排序算法进一步筛选最贴合查询的片段优先呈现给生成模块;c)最终输出准确、有依据的答案。这一过程中,检索排序质量直接决定了生成答案的准确性与可靠性,若检索排序失误导致无关上下文被优先选用,可能引发生成内容偏离主题或出现事实错误。
下面,我们聊聊RAG系统、推荐系统和检索系统的共同点、差异点。
三者的相同点
核心目标
从大规模数据集中,根据特定需求,筛选出符合条件的信息,避免对全量数据进行遍历计算,本质是信息过滤与精准触达的工具。
底层技术
都需要构建数据索引(如倒排索引、向量索引),依赖相似度计算算法(如余弦相似度、BM25),且都需要处理海量非结构化 / 结构化数据的存储与快速查询,提升信息获取效率
三者的差异点
维度
RAG 系统
推荐系统
检索系统
用户需求类型
隐性 / 显性需求,需要 「理解 + 生成的深度加工」
隐性需求为主,用户无明确查询
显性需求为主,用户输入明确关键词 / 条件
数据流向
用户查询 → 检索知识 → 大模型生成回答
用户行为 → 分析偏好 → 推送内容
用户查询 → 匹配索引 → 返回结果
输出形式
自然语言文本(回答、摘要等)
内容列表(商品、视频、文章)
结果列表(文档、链接、数据条目)
典型应用场景
智能问答、知识库助手、企业客服机器人
电商商品推荐、短视频推荐、新闻推荐
搜索引擎(百度 / 谷歌)、文件检索、数据库查询
本篇将涵盖RAG系统检索排序的核心指标,从基础的Precision、Recall到复杂的NDCG、MAP等。
3. 评估原则
在深入探讨具体指标前,需要定义好检索排序评估的基本原则,主要围绕输入数据、相关性定义、Top-K参数三大核心要素。
3.1 输入数据
这里介绍的都是需要真值的指标,因此,评估RAG检索/排序质量时,数据需要满足<预测结果,真实标签>数据对的模式,具体定义如下:
预测结果:RAG检索/排序模块针对每个查询生成的上下文排序列表(含查询-上下文对及相关性得分/排名)。
真实标签:反映上下文与查询实际相关性的标注(二元标签或分级得分),用于验证排序结果的准确性。
RAG系统的排序评估数据集通常结构如下:
查询ID
上下文ID
预测值(相关性得分)
查询1
片段A
0.92
查询1
片段B
0.78
查询1
片段C
0.15
其中,上下文可为知识库中的文档片段、句子或段落,是RAG系统生成答案的直接依据。为判断检索排序优劣,需将预测结果与真实标签对比,示例如下:
查询ID
上下文ID
预测值(相关性得分)
目标值(实际相关性)
查询1
片段A
0.92
1(高度相关)
查询1
片段B
0.78
0(无关)
查询1
片段C
0.15
1(中等相关)
3.2 什么是相关性?
相关性是RAG排序评估的核心,指上下文片段对回答用户查询的有用性,直接决定该片段是否能为生成模块提供有效支撑。
