RAGFLOW~Enable RAPTOR

Enable RAPTOR

        一种递归抽象方法,用于长上下文知识检索和摘要,在广泛语义理解和细微细节之间取得平衡。

        RAPTOR(递归抽象处理用于树状组织检索)是一种在2024年论文中引入的增强文档预处理技术。它旨在解决多跳问答问题,通过递归聚类和对文档片段进行摘要化来构建层次树结构。这使得在长文档中的上下文感知检索更加有效。RAGFlow v0.6.0在数据提取和索引之间的数据预处理管道中集成了RAPTOR用于文档聚类,如下图所示。

        我们使用这种新方法进行的测试在需要复杂多步骤推理的问题回答任务中展示了最先进的(SOTA)结果。通过结合RAPTOR检索与我们内置的分块方法和其他检索增强生成(RAG)方法,您可以进一步提高问题回答的准确性。

        警告:启用RAPER需要大量的内存、计算资源和tokens。

Basic principles

        在原始文档被分割成块之后,这些块根据语义相似性进行聚类,而不是按照它们在文本中的原始顺序。然后,通过系统的默认聊天模型将这些簇总结为更高层次的块。这个过程递归地应用,形成一个从下到上具有不同层次摘要的树结构。如图所示,初始块形成叶节点(显示为蓝色),并递归地总结为根节点(显示为橙色)。

        

        递归聚类和总结能够捕捉到广泛的理解(由根节点实现)以及多跳问答所需的细微细节(由叶节点实现)。

Scenarios

        对于涉及复杂多步骤推理的多跳问答任务,问题和答案之间通常存在语义差距。因此,使用问题进行搜索往往无法检索到有助于正确答案的相关片段。RAPTOR通过为聊天模型提供更丰富、更具上下文关联性和相关性的片段来解决这一挑战,使其能够全面理解而不丢失细节。

        知识图谱也可以用于多跳问答任务。详见构建知识图谱的详细信息。你可以使用任一方法或两者结合,但要确保理解涉及的内存、计算和标记成本。

Prerequisites

        系统的默认聊天模型用于总结聚类内容。在继续之前,请确保已正确配置聊天模型。

Configurations​

        RAPTOR功能默认是禁用的。要启用它,请手动在知识库的配置页面上打开“使用RAPTOR增强检索”开关。

Prompt

        以下提示将递归应用于聚类摘要,{cluster_content}作为内部参数。我们建议您现在保持不变。设计将在适当时候更新。

Please summarize the following paragraphs... Paragraphs as following:{cluster_content}
The above is the content you need to summarize.

​Max token​

        每个生成摘要块的最大标记数。默认为256,最大限制为2048。

Threshold

        在RAPTOR中,块根据其语义相似性进行聚类。阈值参数设置块被分组在一起所需的最小相似度。默认值为0.1,最大限制为1。较高的阈值意味着每个簇中的块较少,较低的阈值则意味着更多。

Max cluster

        创建的最大聚类数量。默认为64,最大限制为1024。

Random seed

        一个随机种子。点击+以更改种子值。

相关资料:

      1、 Enable RAPTOR | RAGFlow

      2、  https://huggingface.co/papers/2401.18059

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/93853.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/93853.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器人+相机通讯】宇树科技相机通信

https://github.com/unitreerobotics/xr_teleoperate/blob/main/README_zh-CN.md 相机驱动与服务端 https://github.com/unitreerobotics/xr_teleoperate/blob/main/teleop/image_server/image_server.py 其中相机如果是realsense, 安装好驱动后,可以使用命令查看…

机械学习中的一些优化算法(以逻辑回归实现案例来讲解)

一、混淆矩阵混淆矩阵是机器学习中评估分类模型性能的重要工具,尤其适用于二分类或多分类任务。它通过展示模型预测结果与实际标签的匹配情况,帮助理解模型的错误类型(如假阳性、假阴性等)。以下通过二分类场景为例,结…

龙蜥受邀参加2025开放计算技术大会,解码基础模型驱动下的系统创新与生态共建

开放计算技术大会由全球最大的开放计算社区 OCP 发起,是开放计算领域生态覆盖最广且最具影响力的亚洲年度技术盛会。本届大会由 OCP 与 OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)两大开放组织联合主办,将于 8 月 7…

第三阶段—8天Python从入门到精通【itheima】-140节(pysqark实战——基础准备)

目录 140节——pysqark实战——基础准备 1.学习目标 2.pysqark库的安装 3.pyspark的路径安装问题 一、为什么不需要指定路径? 二、如何找到 pyspark 的具体安装路径? 三、验证一下:直接定位 pyspark 的安装路径 四、总结:记…

数据库中使用SQL作分组处理01(简单分组)

1.简单分组GroupBy什么就Select什么SELECT Name,Score From StudentScore GROUP BY Name,Score2.聚合函数(MAX SUM AVG COUNT)(1)计算1.表的全部字段都可以用聚合函数,但是筛选聚合函数的结果要用Having关键字2.聚合函数默认排除Null值IDName…

Linux基本服务——web服务解析

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 目录 Web服务解析 虚拟Web主机 Web目录访问控制 Web服务解析 用途:基于 B/S 架构提供网页的服务端程序 应用层协议:HTTP(TCP 80…

深入理解缓存淘汰策略:LRU vs LFU 完全解析

深入理解缓存淘汰策略:LRU vs LFU 完全解析 文章目录深入理解缓存淘汰策略:LRU vs LFU 完全解析前言一、基础概念解析1.1 LRU(Least Recently Used)- 最近最少使用1.2 LFU(Least Frequently Used)- 最少使用…

【C语言】字符函数与字符串函数详解

文章目录一、字符分类函数二、字符转换函数三、strlen函数:计算字符串长度功能说明使用示例模拟实现四、strcpy函数:字符串拷贝功能说明模拟实现五、strcat函数:字符串追加功能说明模拟实现六、strcmp函数:字符串比较比较规则模拟…

uvicorn 启动重复加载 多次加载

目录 uvicorn 启动重复加载 多次加载 解决方法1: 解决方法2: uvicorn 启动重复加载 多次加载 fastapi_aa 是当前类 解决方法1: import uvicornfrom fastapi import FastAPIapp FastAPI()if __name__ "__main__":if sys.gett…

Bard AI本地部署教程:在自己的服务器上运行谷歌AI

Bard AI本地部署教程:在自己的服务器上运行谷歌AI 关键词:Bard AI、本地部署、服务器、谷歌AI、运行教程 摘要:本文旨在为大家详细介绍如何在自己的服务器上实现Bard AI的本地部署。我们会从背景知识讲起,逐步深入到核心概念、算法原理、操作步骤,还会提供项目实战案例和实…

应急响应处置案例(上)

本文目录 目录 本文目录 Web安全事件 概述 案例1 - webshell 背景 排查情况 天眼 服务器 案例2 - Struts2 排查情况 天眼 服务器 案例3 - Redis未授权 背景 排查情况 天眼 服务器 案例4 - EW内网穿透 背景 排查情况 天眼 服务器 案例5 - 一句话木马 背…

面试官问我:“为什么不能完全用对象替代指针?”我笑了:看看Google和Linux内核代码就知道了!

本篇摘要 本篇将以最通俗易懂的语言,形象的讲述为什么很多情境下,我们优先考虑的使用指针而不是对象本身,本篇将给出你答案! 一.从一个生活例子说起,形象秒懂 想象一下,你去图书馆借书,下面你…

CAMx大气污染模拟全流程:Linux编译/多重嵌套配置/SMOKE清单预处理/SA-DDM-PA工具应用与科研绘图结果可视化分析

CAMx模型是一个基于大气化学,针对臭氧、颗粒物和雾霾天气过程的大气污染物计算模型。【目标】:1、掌握CAMx模式的区域空气质量模拟案例配置技术方法2、掌握SMOKE模型的CAMx模式大气排放清单输入准备方法3、掌握CAMx模式污染来源解析工具(SA&a…

嵌入式学习笔记-MCU阶段-DAY10ESP8266模块

1.ESP8266概述 官方网址:ESP8266 Wi-Fi MCU I 乐鑫科技 (espressif.com.cn) ESP8266模块---wifi模块 产品特点: 2.ESP8266中的wifi: ESP8266EX ⽀持 TCP/IP 协议,完全遵循 802.11 b/g/n WLAN MAC 协议,⽀持分布式控制功能 (DC…

如何快速通过软件项目验收,第三方软件检测机构的重要性

在客户和开发团队之间,最后临门一脚的项目验收环节总容易出现各种问题,以至于时间无限拉长,久久不见结束,为此给大家准备了一份如何快速通过软件项目验收的内容来帮助大家结束持久战。 一、项目验收准备材料 (一&…

洛谷做题3:P5711 【深基3.例3】闰年判断

文章目录题目描述输入格式输出格式输入输出样例分析代码题目描述 输入一个年份,判断这一年是否是闰年,如果是输出 1,否则输出 0。 1582 年以来,闰年的定义: 普通闰年:公历年份是 4 的倍数,且不…

PMP证书可以挂靠吗?怎么挂靠?

哈喽学弟学妹们,作为过来人,今天想跟大家聊聊 PMP 证书挂靠这事儿 —— 可能不少准备考或者刚考完的同学都琢磨过,但学长得跟你们交个底:这事儿真不行,更别提啥挂靠费了。先说说 PMP 证书本身哈,它是美国 P…

91-基于Spark的空气质量数据分析可视化系统

基于Spark的空气质量数据分析可视化系统设计与实现 项目概述 本项目是一个基于Apache Spark的大数据分析和可视化系统,专门用于空气质量数据的采集、分析、预测和可视化展示。系统采用分布式计算架构,结合机器学习算法,实现了对全国12个主要…

leetcode 2419. 按位与最大的最长子数组 中等

给你一个长度为 n 的整数数组 nums 。考虑 nums 中进行 按位与(bitwise AND)运算得到的值 最大 的 非空 子数组。换句话说,令 k 是 nums 任意 子数组执行按位与运算所能得到的最大值。那么,只需要考虑那些执行一次按位与运算后等于…

Git 命令使用指南:从入门到进阶

目录1. Git 基本操作1.1 添加文件到暂存区1.2 提交更改到本地仓库1.3 查看工作区状态1.4 查看提交历史1.5 查看引用日志(包括已删除的记录)2. 版本回退与撤销2.1 版本回退2.2 查看已删除的提交记录3. 分支管理3.1 查看分支3.2 创建并切换到新分支3.3 合并…