在RAG系统中,检索器(Retriever)与生成器(Generator)的解耦架构是实现灵活高效的关键设计。所谓解耦,即将检索相关文档和生成答案两个步骤分开,由不同的模块或模型负责。这种架构带来的直接好处是模块独立优化:我们可以针对检索任务微调或更换检索模型,而不必影响生成模型;反之亦然。例如,如果知识库更新了内容,只需要更新索引或更换检索模块,生成模型无需重新训练就能使用最新知识。这种松耦合增加了系统的可维护性和可扩展性。
典型的解耦架构工作流程是:用户查询首先发送给检索器,检索器从知识库(往往已向量化索引)中获取若干相关文档片段,然后将查询及这些检索结果一并提供给生成器模型进行答案生成。生成器通常是一个大型语言模型,通过prompt模板将检索到的信息融入上下文来生成最终回答。Facebook AI在2020年的开创性论文中将这种模式称为“检索增强的生成”,并验证了其在知识密集型NLP任务上的