专注推理查询(ARQs):一种提升大型语言模型指令遵循度、决策准确性和防止幻觉的结构化方法

大型语言模型(LLMs)在客户服务、自动化内容创作和数据检索方面变得至关重要。然而,它们的有效性常常因其在多次交互中无法始终如一地遵循详细指令而受到限制。在金融服务和客户支持系统等高风险环境中,严格遵循指南是必不可少的,而LLMs在指令回忆方面常常遇到困难,导致偏离预期行为。此外,它们还会生成误导性或错误的信息,通常被称为幻觉,这使得在需要精确、情境感知决策的情况下部署它们变得困难。

在复杂场景中保持推理一致性仍然是LLMs面临的一个挑战。虽然它们能对简单查询生成连贯的响应,但在多轮对话中,受过去交互影响,其性能会下降。一个关键问题是对齐漂移,模型逐渐偏离原始指令,导致误解指南和错误建议。情境遗忘是另一个令人担忧的问题,模型优先考虑最近的信息而忽略早期细节,常常忽视关键约束。这些因素导致了错误,削弱了LLMs驱动系统的可靠性。尽管有思维链(CoT)和基于验证的提示等策略,但现有方法未能提供足够的结构来可靠地引导模型完成复杂任务。

为了改进指令遵循度,已经开发了各种提示技术。CoT提示鼓励分步推理以提高逻辑准确性,而验证链则要求对输出进行显式自我检查。尽管这些方法比直接响应生成有所改进,但它们缺乏强化领域特定约束和系统预防常见故障的机制。像LangChain这样的人工智能框架添加了工具集成和工作流自动化的结构元素,但将LLM推理视为黑箱,限制了其强制执行严格指南的能力。缺乏防止幻觉和指令漂移的机制凸显了需要更结构化的方法。

Emcie Co Ltd的研究人员开发了专注推理查询(ARQs)来解决这些不足。这种新方法引入了一个结构化推理蓝图,旨在系统地引导LLMs完成预定义查询。与自由形式推理方法不同,ARQs实现了一个结构化的JSON模式,在关键时刻引导模型关注特定的决策点。这种设计使ARQs能够增强指南遵循度,同时最小化因误解或情境细节丢失导致的故障。为了评估其有效性,该方法在Parlant框架内进行了测试,该框架用于构建面向客户的AI应用程序。初步结果表明,ARQs显著提高了指令遵循能力,同时减轻了与幻觉相关的错误。

ARQ框架由多个阶段组成,这些阶段共同增强了推理性能。第一步是发出针对性的结构化查询,在响应生成前提醒模型关键约束。这些查询强化了关键指令,确保模型不偏离预定义的指南。接下来,模型处理一系列分步查询,以强化特定任务的推理。在某些实现中,随后还有一个验证步骤,模型在最终确定输出前检查其响应是否符合预定义的正确性标准。这种结构化方法与CoT提示形成鲜明对比,通过在推理过程的每个阶段纳入显式机制来确保一致性。

Image

Parlant框架内的性能评估中,在包含87个不同对话场景的受控测试环境中,ARQs实现了90.2%的成功率,优于CoT推理(86.1%)和直接响应生成(81.5%)。ARQ方法在解决两个关键故障模式方面表现出色:指南重新应用和幻觉预防。具体来说,在模型需要重新应用早期指令的情况下,ARQs确保了92.19%的成功率,显著高于CoT(87.81%)和直接响应生成(85.31%)。此外,ARQs减少了事实性错误的发生,接受ARQ训练的模型比依赖标准CoT技术的模型幻觉率低23%。这些结果强调了结构化推理方法在提高LLM可靠性方面的重要性。

Image


研究的几个关键结论包括:

  1. ARQs提高了指令遵循度,在87个测试用例中实现了90.2%的成功率,超过了思维链(86.1%)和直接响应生成(81.5%)。

  2. 与CoT相比,ARQs显著减少了23%的幻觉错误,使其特别适用于需要事实一致性的业务关键型AI应用。

  3. 在指南重新应用场景中,ARQs的性能优于CoT 4.38%,成功率为92.19%,而CoT为87.81%。

  4. ARQs的结构化特性允许在分类任务中更高效地进行推理,与CoT相比减少了29%的令牌使用。

  5. ARQs中的验证机制是防止对齐漂移的关键。它确保了即使在长时间对话中,模型也能专注于预定义的约束。

  6. 未来的研究旨在通过优化查询设计和探索其在多样化AI驱动决策系统中的应用,进一步提高ARQ的效率。

详见论文:https://arxiv.org/abs/2503.03669v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86577.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为云Flexus+DeepSeek征文 | DeepSeek驱动的医疗AI Agent:智能问诊系统开发完整指南

华为云FlexusDeepSeek征文 | DeepSeek驱动的医疗AI Agent:智能问诊系统开发完整指南 🌟 嗨,我是IRpickstars! 🌌 总有一行代码,能点亮万千星辰。 🔍 在技术的宇宙中,我愿做永不停歇…

【大模型水印论文阅读2】前缀文本编码、均匀性约束

TOC 🌈你好呀!我是 是Yu欸 🚀 感谢你的陪伴与支持~ 欢迎添加文末好友 🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*) 写在最前面 版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。…

破茧时刻,与光同行

凌晨五点的闹钟刺破薄雾,我摸黑打开台灯。摊开的数学错题本上,函数图像在暖黄的光晕里舒展,像等待破译的密码。这样的清晨已持续三百多个日夜,我知道,在无数个相似的时刻里,总有千万盏台灯在黑暗中次第亮起…

Learning PostgresSQL读书笔记: 第8章 Triggers and Rules

本章将讨论以下内容: • 探索 PostgreSQL 中的规则 • 管理 PostgreSQL 中的触发器 • 事件触发器 探索 PostgreSQL 中的规则 文档中的这段话阐述了rule和trigger的区别: PostgreSQL 规则系统允许定义在数据库表中插入、更新或删除时执行的替代操作。粗…

信创国产化替代中的开发语言选择分析

在信息技术应用创新(信创)国产化替代过程中,选择合适的开发语言至关重要。以下是适合信创环境的开发语言及其优势分析: 主流适合信创的编程语言 1. Java 优势:跨平台特性(JVM)、丰富的生态体系、企业级应用成熟 信创适配:国内有…

Android 中 函数实现多个返回值的几种方式

在编程中,函数通常只能返回一个值。但通过使用对象封装、Pair、Triple、数组、列表或 Bundle 方式,可以轻松地返回多个值。 1、对象封装方式 创建数据类来封装需要返回的多个值。 data class Result(val code: Int, val message: String)fun getMultiV…

Leetcode百题斩-DP

又到了最好玩的dp了,各种玄学转移也算是其乐无穷。前段时间刚做的LCA正是这种题的小试牛刀,如果当时就把这个专题刷完了,或许我现在已经从西溪园区跑到云谷园区了。 不过,恐怖如斯的dp专题居然只给了一道hard,基本也没…

策略模式与工厂模式的黄金组合:从设计到实战

策略模式和工厂模式是软件开发中最常用的两种设计模式,当它们结合使用时,能产生11>2的效果。本文将通过实际案例,阐述这两种模式的协同应用,让代码架构更优雅、可维护性更强。 一、为什么需要组合使用? 单独使用的…

SAP PP模块与MM模块作用详解

SAP PP模块与MM模块作用详解 一、PP模块(Production Planning)—— 生产计划与执行中枢 核心作用:将销售需求转化为可执行的生产指令,管控从计划到完工的全过程。 关键功能 功能说明业务价值主数据管理维护BOM(物料…

Linux tcp_info:监控TCP连接的秘密武器

深入解析 Linux tcp_info:TCP 状态的实时监控利器 在开发和运维网络服务时,我们常常遇到这些问题: 我的 TCP 连接为什么速度慢?是发生了重传,还是窗口太小?拥塞控制到底有没有生效? 这些问题…

CVE-2015-5531源码分析与漏洞复现(Elasticsearch目录遍历漏洞)

概述 漏洞名称:Elasticsearch 快照API目录遍历漏洞 CVE 编号:CVE-2015-5531 CVSS 评分:7.5 影响版本: Elasticsearch 1.0.0–1.6.0(1.5.1及以前版本无需配置即可触发;1.5.2–1.6.0需配置path.repo&#xf…

HexHub开发运维利器Database, Docker, SSH, SFTP

支持隧道,SFTP,X11转发,跳板机,分屏广播输入,LRZSZ,TRZSZ,SCP 分屏广播输入 管理多台服务器,更快一步 支持多种文件传输协议 支持跨服务器文件传输,使用复制粘贴即可进…

2025年教育、心理健康与信息管理国际会议(EMHIM 2025)

2025 2nd International Conference on Education, Mental Health, and Information Management 一、大会信息 会议简称:EMHIM 2025 大会地点:中国三亚 收录检索:提交Ei Compendex,CPCI,CNKI,Google Scholar等 二、会议简介 第二届教…

数字孪生技术为UI前端注入新活力:实现智能化交互新体验

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 在数字化转型的深水区,数字孪生技术正以破竹之势重构 UI 前端的技术逻辑与交互范式…

组件协作模式

目录 “组件协作”模式模板方法模式动机模式定义结构要点总结 “组件协作”模式 现代软件专业分工之后的第一个结果是“框架与应用程序的划分”。“组件协作”模式通过晚期绑定,实现框架与应用程序之间的松耦合,是二者之间协作时常用的模式。典型模式&a…

Docker 运行RAGFlow 搭建RAG知识库

借鉴视频:DeepSeek 10分钟完全本地部署 保姆级教程 断网运行 无惧隐私威胁 大语言模型 CPU GPU 混合推理32B轻松本地部署!DeepSeek模拟王者!!_哔哩哔哩_bilibili 借鉴博客:RAGFlow搭建全攻略:从入门到精通…

python编写脚本每月1号和15号执行一次将TRX是否强更发送到钉钉

编写脚本 import requests import json import time import hmac import hashlib import base64 import urllib.parse# 1. 配置钉钉机器人 webhook "https://oapi.dingtalk.com/robot/send?access_tokenXXXXXX" secret "XXXXXXXX" # 如果没有加签验…

Linux-系统管理

[rootlocalhost ~]# lscpu //查看cpu [rootlocalhost etc]# cat /etc/redhat-release //查看当前目录的版本信息 [rootlocalhost ~]# ifconfig //查看当前激活的网卡信息 [rootlocalhost ~]# ifconfig ens33 192.168.1.10 //给网卡配置临时地址 [rootlocalhost ~]# hostnam…

【Spring】系统化的 Spring Boot 全栈学习教程,涵盖基础配置、核心功能、进阶实战及文档自动生成

这里写目录标题 🛠️ **一、环境搭建与项目创建**1. 开发环境准备2. 创建第一个项目(Spring Initializr) 🚀 **二、核心功能开发**1. RESTful API 开发2. 数据持久化(Spring Data JPA)3. 配置文件多环境切换…

Discrete Audio Tokens: More Than a Survey

文章目录 模型设计的考虑量化的方式:比特率:Fixed vs. Adaptive Bitrate码本内容设计的考虑Streamability. 模型评估Reconstruction Evaluation and Complexity Analysis.识别和生成任务(SE, SR)Acoustic Language Modeling.Music Generation…