RAG:检索增强生成的范式演进、技术突破与前沿挑战

1 核心定义与原始论文

RAG(Retrieval-Augmented Generation)由Facebook AI Research团队于2020年提出,核心思想是将参数化记忆(预训练语言模型)与非参数化记忆(外部知识库检索)结合,解决大模型的知识静态性与幻觉问题。

原始论文信息
Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), pp. 9459-9474.
论文地址:https://arxiv.org/abs/2005.11401
代码开源:https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag

该论文首次提出两种边缘化范式

  • RAG-Sequence:整个输出序列基于同一组检索文档生成,公式为:
    pRAG-Seq(y∣x)≈∑z∈top-kpη(z∣x)pθ(y∣x,z)p_{\text{RAG-Seq}}(y|x) \approx \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y|x,z)pRAG-Seq(yx)ztop-kpη(zx)pθ(yx,z)
  • RAG-Token:每个token生成时可选择不同文档,灵活性更高:
    pRAG-Token(y∣x)≈∏iN∑z∈top-kpη(z∣x)pθ(yi∣x,z,y1:i−1)p_{\text{RAG-Token}}(y|x) \approx \prod_i^N \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y_i|x,z,y_{1:i-1})pRAG-Token(yx)iNztop-kpη(zx)pθ(yix,z,y1:i1)

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.编辑距离:理论基础、算法演进与跨领域应用
  • 19.ROUGE-WE:词向量化革新的文本生成评估框架
  • 18.互信息:理论框架、跨学科应用与前沿进展
  • 17.表征学习:机器认知世界的核心能力与前沿突破
  • 16.CodeBLEU:面向代码合成的多维度自动评估指标——原理、演进与开源实践
  • 15.Rouge:面向摘要自动评估的召回导向型指标——原理、演进与应用全景
  • 14.RoPE:相对位置编码的旋转革命——原理、演进与大模型应用全景
  • 13.KTO:基于行为经济学的大模型对齐新范式——原理、应用与性能突破
  • 12.OpenRLHF:面向超大语言模型的高性能RLHF训练框架
  • 11.LIMA:大语言模型对齐的“少即是多”革命——原理、实验与范式重构
  • 10.Crome:因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题
  • 9.CIRL:因果启发的表征学习框架——从域泛化到奖励分解的因果革命
  • 8.PPO:强化学习中的近端策略优化——原理、演进与大规模应用实践
  • 7.直接偏好优化(DPO):原理、演进与大模型对齐新范式
  • 6.LIMO:仅需817样本激活大模型数学推理能力,挑战“数据规模至上”传统范式
  • 5.ReasonFlux:基于思维模板与分层强化学习的高效推理新范式
  • 4.LiteCoT:难度感知的推理链压缩与高效蒸馏框架
  • 3.自反馈机制(Self-Feedback)在大模型中的原理、演进与应用
  • 2.复杂度优先:基于推理链复杂性的提示工程新范式
  • 1.Self-Consistency:跨学科一致性的理论与AI推理的可靠性基石
2 技术架构与关键组件

RAG系统包含三阶段流水线:

  1. 检索器(Retriever)
    • 使用双编码器架构(DPR模型),将查询与文档映射为稠密向量
    • 通过最大内积搜索(MIPS) 从维基百科等知识库召回Top-K文档
  2. 生成器(Generator)
    • 采用BART-large(400M参数)作为基础seq2seq模型
    • 输入格式:原始查询与检索文档拼接为[query; document]
  3. 边缘化机制(Marginalization)
    • 对多文档生成结果加权融合,抑制噪声干扰

表:RAG在开放域QA任务的性能对比(NaturalQuestions数据集)

模型EM得分F1得分
BART-large44.557.2
T5-11B47.259.1
RAG-Sequence53.165.9
RAG-Token54.867.2
数据来源:Lewis et al. (2020) NeurIPS论文
3 范式演进与技术增强
3.1 基础范式扩展

北京大学综述(Zhao et al., 2024)将RAG划分为四类范式:

  • 查询式RAG:检索结果直接拼入输入提示(如REALM)
  • 隐空间式RAG:检索内容以潜在表示融合(如FiD)
  • 概率式RAG:在logit层融合检索分布(如kNN-LM)
  • 推测式RAG:用检索替代部分生成以提升效率(如GPTCache)
3.2 自反思机制(Self-RAG)

华盛顿大学提出反射令牌(Reflection Tokens),实现动态决策:

  1. Retrieve:判断是否需要检索
  2. IsREL:评估文档相关性
  3. IsSUP:验证生成是否受文档支持
  4. IsUSE:评分输出有用性(1-5分)
    实验显示其在事实准确性上超越ChatGPT 12.3%(FEVER数据集)。
3.3 多模态与结构化增强
  • GraphRAG(Microsoft, 2024):
    构建多模态知识图谱(MMKG),通过社区检测生成分层摘要,解决全局查询(如“数据集主题?”)的检索失效问题。
  • MMGraphRAG(Wan et al., 2025):
    融合场景图与文本KG,使用谱聚类实现跨模态实体链接,在DocBench数据集上提升长文本理解能力。
4 行业应用与评估标准
4.1 应用场景
领域任务案例代表性模型
文本开放域问答、事实验证FiD, SELF-RAG
代码程序修复、SQL生成SKCODER, RepoCoder
多模态图像描述、视频问答MMGraphRAG, ReMoDiffuse
科学药物发现、生物医学推理BioRAG
数据来源:Zhao et al. (2024) RAG综述
4.2 评估维度

关键指标包括:

  • 忠实度(Faithfulness):生成与检索内容的一致性(RAGAS指标)
  • 噪声鲁棒性:从含噪文档中提取信息的能力
  • 反事实鲁棒性:识别检索内容中的逻辑错误
5 局限与前沿方向
现存挑战
  • 检索噪声:无关文档导致生成偏离(北大综述指出召回率-精度平衡难题)
  • 上下文窗口限制:长文档导致信息丢失(GraphRAG通过社区摘要缓解)
  • 跨模态对齐:图像/视频特征与文本嵌入空间不一致
未来方向
  1. 动态知识更新:实时索引修订机制(如RAGFoundry框架)
  2. 端到端优化:检索器与生成器的联合微调(如Intel RAGFoundry支持LoRA训练)
  3. 推理深度增强
    • DeepSieve框架(Guo et al., 2025)将LLM作为知识路由器,递归分解复杂查询
    • Agentic RAG:通过多智能体协作实现检索-生成迭代优化

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/91249.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/91249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年蓝桥杯Scratch10月图形化stema选拔赛真题——旋转的图形

旋转的图形编程实现旋转的图形。具体要求1)点击绿旗,在舞台上出现滑杆形式的变量 r,取值范围为-1、0、1,默认值为 0,如图所示;2)1秒后,在舞台上绘制出一个红色正方形(边长…

【音视频】WebRTC 开发环境搭建-Web端

一、开发环境搭建 1.1 安装vscode 下载VSCode:https://code.visualstudio.com/,下载后主要用于开发Web前端页面,编写前端代码 安装完成后下载Live Server插件,用于本地开发,实时加载前端页面 1.1.1 前端代码测试 下…

力扣54:螺旋矩阵

力扣54:螺旋矩阵题目思路代码题目 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 思路 思路很简单创建一个二维数组然后按照箭头所示的顺序一层一层的给二维数组相应的位置赋值即可。难点是我们是一层一层的赋值…

【CSS】设置表格表头固定

1.设置thead样式在thead元素中增加样式:position: sticky;top: 0;2.设置table样式在table元素中增加样式:border-collapse: separate; /* 分离边框模式 */ border-spacing: 0;3.设置表头伪元素样式增加样式:th::after {content: ;position: a…

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现标签条码一维码的检测(C#代码,UI界面版)

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现标签条码一维码的检测(C#代码,UI界面版))工业相机使用YoloV8模型实现标签条码一维码的检测工业相机通过YoloV8模型实现标签条码的检测的技术背景在相机SDK中获取图像转换…

如何编写好的测试用例?

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快对于软件测试工程师来说,设计测试用例和提交缺陷报告是最基本的职业技能。是非常重要的部分。一个好的测试用例能够指示测试人员如何对软件进行测试。在…

《Java 程序设计》第 12 章 - 异常处理

大家好!今天我们来学习《Java 程序设计》中的第 12 章 —— 异常处理。在编程过程中,错误和异常是不可避免的。一个健壮的程序必须能够妥善处理各种异常情况。本章将详细介绍 Java 中的异常处理机制,帮助大家编写出更稳定、更可靠的 Java 程序…

STM32CubeIDE新建项目过程记录备忘(二) GPIO输出demo:LED闪烁

利用前面创建好的基础模板项目文件,创建第一个应用项目,单片机的hello world:LED闪烁。打开模板文件文件--从文件系统中打开项目:在弹出的窗口中选择之前创建的模板项目文件并打开。复制粘贴新项目 在项目管理器,复制之…

HTML基础P2 | JS基础讲解

什么是JS JS是一个网页的脚本语言&#xff0c;你可以理解为在HTML中写类似于JAVA等高级编程语言的代码&#xff0c;使得网页可以实现一些包含逻辑处理的交互操作 简单上手例子 接下来&#xff0c;给大家一个简单的小例子来感受一下 <!DOCTYPE html> <html lang&qu…

QT笔记(2)——vscode + CMAKE + qtcreate的操作方式

1.vscode 下载cmake&#xff0c;clangd&#xff0c;qtConfigure&#xff0c;cmake tool的相关插件支持 2. qtConfigure插件配置 根据自己下载的qt目录下寻找如图的相关工具 3. qt环境变量配置 在系统变量的path中添加qt编译需要的环境变量。 4.下载Cmake支持 CMake下…

sed编程入门

一.sed是啥sed&#xff08;流编辑器&#xff0c;Stream Editor&#xff09;是 Unix/Linux 系统中强大的文本处理工具&#xff0c;常用于对文本进行替换、删除、插入、追加等操作。它逐行处理输入文本&#xff0c;并根据提供的脚本命令修改文本&#xff0c;最后输出结果。二.基本…

知识速查大全:python面向对象基础

目录 一、面向对象的基本概念 二、类和对象 1.类 2.对象 三、属性&#xff08;数据&#xff09;和方法 1.数据 1.1.实例数据 1.2.类数据 2.方法 2.1.实例方法 2.2.类方法 3.数据和方法的综合使用 四、面向对象三大特性 1.封装 2.继承 2.1.单继承 2.2.多继承 2.3.混合类 2.4.方法…

Linux系统编程Day1-- 免费云服务器获取以及登录操作

一、 学生党如何“白嫖”或免费使用云服务器&#xff1f; 作为学生党&#xff0c;资金有限的情况下确实不容易长期负担服务器费用。但好消息是&#xff0c;有多种方式可以“白嫖”或低成本使用云服务器&#xff0c;尤其是针对学生身份、学习用途和开发者计划。 1、使用各大云平…

15.11 单卡训练770M参数模型!DeepSpeed ZeRO-3实战:RTX 4090显存直降6.8GB

单卡训练770M参数模型!DeepSpeed ZeRO-3实战:RTX 4090显存直降6.8GB 实战 DeepSpeed ZeRO-2 和 ZeRO-3 单机单卡训练 为什么需要单机单卡训练场景? 虽然 DeepSpeed 的 ZeRO 技术主要面向分布式训练场景,但单机单卡训练仍然具有重要实践价值: 开发调试:在资源有限情况下…

HTTPS基本工作过程:基本加密过程

HTTPS基本工作过程&#xff1a;HTTPS只是HTTP的基础上引入加密机制1.引入对称加密首先&#xff0c;什么是对称加密和非对称加密&#xff1f;对称加密&#xff1a;使用同一把密钥加密解密非对称加密&#xff1a;有两把密钥&#xff0c;为公钥&#xff08;公开的&#xff09;和私…

ES 文件浏览器:多功能文件管理与传输利器

ES 文件浏览器是一款功能强大的文件管理器软件&#xff0c;支持多种文件传输协议&#xff0c;能够方便地管理手机、平板电脑和电脑中的文件。它不仅提供了丰富的文件管理功能&#xff0c;还支持多种设备之间的文件传输&#xff0c;满足用户在不同场景下的需求。 核心功能 1. 文…

github-idea新建文件就要弹窗提醒-如何关闭-2025.7.30

打开设置 进入 File&#xff08;文件&#xff09; > Settings&#xff08;设置&#xff09;。 导航到版本控制设置&#xff1a; 在左侧导航栏中&#xff0c;展开 Version Control&#xff08;版本控制&#xff09;。 选择 Confirmation&#xff08;确认&#xff09;。修改文…

滚珠导轨在电子制造中的流畅性优势

在电子元件微米级精度要求的搬运与装配环节&#xff0c;传统导轨易因摩擦、磨损导致定位偏差或设备抖动。而滚珠导轨凭借滚动摩擦设计&#xff0c;将滑动阻力降低80%以上&#xff0c;成为高精度电子制造设备的首选传动部件。微米级精度&#xff1a;在贴片机中&#xff0c;滚珠导…

数据结构——单链表1

1. 单链表1.1 概念与结构概念&#xff1a;链表是一种物理存储结构上非连续、非顺序的存储结构&#xff0c;数据元素的逻辑顺序是通过链表中的指针链接次序实现的。1.1.1 结点与顺序表不同的是&#xff0c;链表里的每节都是独立申请下来的空间&#xff0c;我们称之为“节点/结点…

STM32CubeMX + HAL库:基于DHT11温湿度监测实现

1. 概述1.1 实验目的本实验旨在利用 DHT11 温湿度传感器&#xff0c;每隔 5 秒采集一次环境的温度与湿度数据&#xff0c;并通过串口将数据循环打印输出。所使用的 DHT11 模块硬件结构简单&#xff0c;包含三个接口引脚&#xff1a;电源正极&#xff08;VCC&#xff09;、电源负…