Spring AI 系列之九 - RAG-入门

之前做个几个大模型的应用,都是使用Python语言,后来有一个项目使用了Java,并使用了Spring AI框架。随着Spring AI不断地完善,最近它发布了1.0正式版,意味着它已经能很好的作为企业级生产环境的使用。对于Java开发者来说真是一个福音,其功能已经能满足基于大模型开发企业级应用。借着这次机会,给大家分享一下Spring AI框架。

注意由于框架不同版本改造会有些使用的不同,因此本次系列中使用基本框架是 Spring AI-1.0.0,JDK版本使用的是19
代码参考: https://github.com/forever1986/springai-study

目录

  • 1 RAG
  • 2 示例演示
    • 2.1 初始化
    • 2.2 实现RAG
    • 2.3 演示

大模型训练数据是大模型公司自身或公开的数据,并不具备某些公司自身的企业内部数据。这时候有两种方法可以让大模型学习企业内部数据,一种是微调,一种就是RAG。随着大模型的token长度越来越长,RAG比微调更具备安全性和可靠性的优势,因此越来越多的应用都是基于RAG。现在来看看Spring AI如何使用RAG。

1 RAG

提示:学习Spring AI中的RAG,建议最好想了解什么是RAG,可以参考我之前写的系列《检索增强生成RAG系列》

RAG的全称是Retrieval-Augment Generation,即称为检索增强生成。通过特定prompt方式为 LLM 提供了从某些数据源检索到的信息,并基于此修正生成的答案。其中有几个关键的点需要知道:

  • 一个是从某些数据源检索到的信息
  • 提供特定的prompt
  • 修正生成答案

简单用一句话来说就是:利用特定知识库(一般是向量数据库)将格外的知识以向量或其它方式存储,然后在回答用户问题时,先将用户问题在知识库(向量数据库)中进行查询(比如相似度查询、关键字查询等),再将查询结果以prompt的方式扔给大模型,获得最终答案。

以下就是RAG常见的整体架构:
在这里插入图片描述

RAG的步骤:

  • 1)专业知识向量化之后,存入向量数据库
  • 2)通过用户提出的问题,进行向量检索向量数据库(一般使用相似度等查询算法),为了限制token长度,一般取Top-N数据
  • 3)使用特定的prompt提示词,将问题和查出来的Top-N数据给大模型
  • 4)大模型根据问题和参考数据,进行回答

关于RAG的内容很多,本人在之前写过《检索增强生成RAG系列》的文章,有兴趣的朋友可以去先了解RAG的内容,再来看看接下来的几章就会比较容易理解。

2 示例演示

代码参考lesson11子模块的get-start子模块

示例说明:通过将文档进行embedding,存入向量数据库。之后通过Spring AI的QuestionAnswerAdvisor进行封装提问

2.1 初始化

1)由于需要将数据进行embedding,这里使用线上智谱的模型,因此需要充值关于加载本地embedding模型,后续会再讲

2)新建lesson11子模块

3)在lesson11子模块下,新建get-start子模块,其pom的引入如下:

<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-zhipuai</artifactId></dependency><!-- 引入向量数据库插件 --><dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-advisors-vector-store</artifactId></dependency>
</dependencies>

4)配置application.properties文件

# 聊天模型
spring.ai.zhipuai.api-key=你的智谱模型的API KEY
spring.ai.zhipuai.chat.options.model=GLM-4-Flash-250414
spring.ai.zhipuai.chat.options.temperature=0.7

5)新建启动类Lesson11GetStartApplication:

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;@SpringBootApplication
public class Lesson11GetStartApplication{public static void main(String[] args) {SpringApplication.run(Lesson11GetStartApplication.class, args);}
}

2.2 实现RAG

1)将文档数据embedding后,存入向量数据库

import org.springframework.ai.document.Document;
import org.springframework.ai.embedding.EmbeddingModel;
import org.springframework.ai.vectorstore.SimpleVectorStore;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;import java.util.List;@Configuration
public class VectorStoreConfig {/*** @param embeddingModel - 这里如果没有特殊配置,默认使用的是你引入model的embedding模型*/@Beanpublic VectorStore vectorStore(EmbeddingModel embeddingModel){SimpleVectorStore simpleVectorStore = SimpleVectorStore.builder(embeddingModel).build();List<Document> documents = List.of(new Document("ChatGLM3 是北京智谱华章科技有限公司和清华大学 KEG 实验室联合发布的对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:\n" +"\n" +"更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,* ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能*。\n" +"更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式 ,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。\n" +"更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3-6B-128K。以上所有权重对学术研究完全开放 ,在填写 问卷 进行登记后亦允许免费商业使用。\n" +"\n" +"北京智谱华章科技有限公司是一家来自中国的公司,致力于打造新一代认知智能大模型,专注于做大模型创新。"));simpleVectorStore.add(documents);return simpleVectorStore;}
}

2)创建RAGController 演示类:

import org.springframework.ai.chat.client.ChatClient;
import org.springframework.ai.chat.client.advisor.vectorstore.QuestionAnswerAdvisor;
import org.springframework.ai.tool.ToolCallbackProvider;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;@RestController
public class RAGController {private ChatClient chatClient;public RAGController(ChatClient.Builder chatClientBuilder, VectorStore vectorStore) {this.chatClient = chatClientBuilder// 通过Advisors方式,对向量数据库进行封装.defaultAdvisors(new QuestionAnswerAdvisor(vectorStore)).build();}/*** @param message 问题*/@GetMapping("/ai/rag")public String rag(@RequestParam(value = "message", required = true, defaultValue = "ChatGLM3是哪个国家的大模型?") String message) {return this.chatClient.prompt().user(message).call().content();}}

2.3 演示

1)访问地址:

http://localhost:8080/ai/rag

在这里插入图片描述

说明:从上图可以看到通过知识库的嵌入,并查询,将结果以prompt方式提供给大模型,最终大模型根据上下文给出问题的答案。

结语:本章讲解了RAG的原理,并通过Spring AI一个入门示例,就实现了RAG的功能。从示例可以看到Spring AI对RAG的封装后,对用户的使用十分简便。关于Spring AI实现RAG还有更深入的功能,接下来几章会详细讲解。

Spring AI系列上一章:《Spring AI 系列之八 - MCP Server》

Spring AI系列下一章:《Spring AI 系列之十 - RAG-进阶QuestionAnswerAdvisor》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/914565.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/914565.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】基于顺序表的通讯录实现

目录 1 顺序表的概念及结构 1.1 线性表 1.2 顺序表分类 1.2.1 静态顺序表 1.2.2 动态顺序表 2 顺序表的实现 2.1 顺序表的初始化 2.2 顺序表中数据的增加和修改 2.2.1 顺序表的头插 2.2.2 顺序表的尾插 2.2.3 顺序表的头删 2.2.4 顺序表的尾删 2.2.5 顺序表指定位置…

C语言与汇编混合编程

一、GCC 扩展语法与MSVC约束 &#xff08;一&#xff09;GCC&#xff08;GNU Compiler Collection&#xff09;内联汇编语法 asm("汇编指令");#或者 __asm__("汇编指令");#使用更复杂的语法来指定输入、输出操作数和修改的寄存器&#xff1a; asm volatile…

WPF中的ListBox详解

文章目录简介ListBoxItem选中项目动态列表简介 【ListBox】是列表控件&#xff0c;其内部可包含多个【ListBoxItem】&#xff0c;用户可以从列表中选择一个或多个项&#xff0c;若Item个数超过指定高度&#xff0c;则右侧会自动出现滚动条&#xff0c;非常便捷。尽管逻辑上来说…

【历史人物】【李白】生平事迹

目录 一、李白个人简历 二、个人主要经历 三、个人成就及影响 1、诗 2、词 3、书法 4、剑术 5、理想 四、历史评价 五、趣事 1、李白搁笔 2、赠汪伦 一、李白个人简历 基本信息‌ 姓名&#xff1a;李白&#xff0c;字太白&#xff0c;号青莲居士 性别&#xff1…

HALCON+PCL混合编程

HALCON与PCL的混合编程基础 HALCON和PCL(Point Cloud Library)都是处理3D数据的强大工具&#xff0c;但它们有着不同的设计目标和数据结构。HALCON专注于机器视觉应用&#xff0c;提供了丰富的图像处理和分析功能&#xff1b;而PCL则是专门为点云处理设计的开源库。 要实现两者…

JavaScript书写基础和基本数据类型

JavaScript书写基础和基本数据类型 jarringslee js书写基础和规范 js是一种在客户端&#xff08;浏览器&#xff09;运行的编程语言&#xff0c;可实现人机交互的效果。js组成&#xff1a; js由两部分组成&#xff1a; ECMAScript&#xff1a;js的语言基础&#xff0c;js遵循其…

CSS个人笔记分享【仅供学习交流】

1、调整透明度 .text{ background-color: rgba(0, 0, 0, 0.08); }解释&#xff1a;rgba&#xff08;rgb三元素&#xff0c;透明度取值从0~1&#xff09; 2、文字和图片对齐方式 长用于头像旁边的昵称居中显示<img src"img/hua" alt"">华仔</img&g…

24.找到列表中最大或最小值的索引

找到列表中最大或最小值的索引 在 Python 中,如果你想找出某个列表中最小或最大值的位置(索引),你可以通过两步快速实现: 使用 min() 或 max() 获取目标值使用 .index() 获取目标值在列表中的索引位置✅ 基础实现 def min_element_index(arr):return arr.index(min(arr)

如何解决pip安装报错ModuleNotFoundError: No module named ‘pandas’问题

【Python系列Bug修复PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘pandas’问题 摘要 在使用 PyCharm 的 Python 控制台或终端执行 pip install pandas 后&#xff0c;仍然出现 ModuleNotFoundError: No module named ‘pandas…

【env环境】rtthread5.1.0使用fal组件

配置 board/Kconfigconfig BSP_USING_ON_CHIP_FLASHbool "Enable On Chip Flash"default ncp rt-thread/components/fal/samples/porting/fal_cfg.h board/fal_cfg.h /** Copyright (c) 2006-2018, RT-Thread Development Team** SPDX-License-Identifier: Apache-2.…

C++20 协程参考手册详解 - 源自 cppreference.com

C20 协程参考手册详解 - 源自 cppreference.com 人话版 先说“人说”&#xff0c;简化版本&#xff0c;更易理解。 宏观概念&#xff1a;协程是一个可以暂定和恢复执行的函数。&#xff08;普通函数是线程相关的&#xff0c;函数的调用依赖于线程栈&#xff0c;而协程的运行…

AI大模型训练的云原生实践:如何用Kubernetes指挥千卡集群?

当你的团队还在手动拼装显卡集群时&#xff0c;聪明人早已教会Kubernetes自动调度千卡。就像交响乐团需要指挥家&#xff0c;万级GPU需要云原生调度艺术。深夜的机房&#xff0c;硬件工程师老张盯着监控屏上跳动的红色警报——手工组装的千卡集群再次因单点故障崩溃。而隔壁团队…

java 在k8s中的部署流程

1.写Docker文件FROM ubuntu:22.04ENV LANGC.UTF-8 LC_ALLC.UTF-8RUN apt-get update \&& DEBIAN_FRONTENDnoninteractive apt-get install -y --no-install-recommends tzdata curl ca-certificates fontconfig locales binutils \&& echo "C.UTF-8 UTF-8…

静电式 vs UV 光解:哪种油烟净化技术更适合你的餐厅?

在餐饮行业&#xff0c;油烟净化是维持厨房环境、保障周边空气质量的关键环节。静电式与 UV 光解作为两种主流净化技术&#xff0c;各有其适用范围与局限性。选择时需结合餐厅的烹饪类型、油烟特点及环保要求&#xff0c;而非盲目追求技术先进或价格高低。一、技术原理&#xf…

Java全栈工程师面试实录:从电商系统到AIGC的层层递进

场景&#xff1a;互联网大厂Java面试官 vs 搞笑程序员小曾 第一轮提问 面试官&#xff1a;小曾&#xff0c;我们公司正在重构一个高并发的电商系统&#xff0c;需要使用Spring Cloud Alibaba进行服务拆分。你能描述一下如何用Nacos进行服务注册与发现&#xff0c;并解决服务雪崩…

C++ CRTP

C CRTP&#xff08;奇异递归模板模式&#xff09;CRTP 是什么&#xff1f; 一句话总结&#xff1a;CRTP 就是让子类把自己作为模板参数传递给父类。 听起来有点绕&#xff0c;直接上代码就明白了&#xff1a; template <typename Derived> class Base {// ... };class De…

21.映射字典的值

有时候你会希望保留字典的键不变,但将每个键对应的值应用一个函数进行转换,比如提取字段、做数学运算、格式化等。 ✅ 基本用法 你可以使用 dict.items() 搭配字典推导式或生成器表达式来实现。 def map_values(obj, fn):return dict((k, fn(v)

【算法】贪心算法:摆动序列C++

文章目录前言题目解析算法原理代码示例策略证明前言 题目的链接&#xff0c;大家可以先试着去做一下再来看一下思路。376. 摆动序列 - 力扣&#xff08;LeetCode&#xff09; 题目解析 将题目有用的信息划出来&#xff0c;结合示例认真阅读&#xff0c;去理解题目。 我们的摆…

【DOCKER】-6 docker的资源限制与监控

文章目录1、docker的资源限制1.1 容器资源限制的介绍1.2 OOM1.3 容器的内存限制1.3.1 内存限制的相关选项1.4 容器的CPU限制介绍2、docker的监控插件2.1 cadvisor2.2 portainer1、docker的资源限制 1.1 容器资源限制的介绍 默认情况下&#xff0c;容器没有资源的使用限制&…

gcc 源码分析--gimple 关键数据结构

gimple 操作码&#xff0c;支持这些&#xff1a;DEFGSCODE(GIMPLE_symbol, printable name, GSS_symbol). */ DEFGSCODE(GIMPLE_ERROR_MARK, "gimple_error_mark", GSS_BASE) DEFGSCODE(GIMPLE_COND, "gimple_cond", GSS_WITH_OPS) DEFGSCODE(GIMPLE_DEBU…