A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

3、微调(上一部分内容)

4、LLMs的对齐

大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式:

  • 带有反馈的人工智能强化学习(Reinforcement Learning with Human Feedback, §4.1):使用人类标记的数据作为奖励信号。
  • 带有AI反馈的强化学习(Reinforcement Learning with AI Feedback, §4.2):利用AI生成的反馈来解决可扩展性问题。
  • 直接偏好优化(Direct Preference Optimization, §4.3):直接从成对的人类偏好数据中学习,不需要明确的奖励模型。

每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。

表2: 大型语言模型对齐方法的比较概述(2022-2024)

此表评估了突出的对齐技术在八个指标上的表现:

  • RM1(显式或隐式奖励模型)
  • RM2(点奖励或偏好概率模型)
  • RM3(响应级或令牌级奖励)
  • RM4(正向或负向奖励模型)
  • F(反馈类型:人类或AI)
  • RL1(参考模型或无参考模型的RL)
  • RL2(在线策略或离线策略RL)
  • O(在线/迭代或离线/非迭代优化)

通过对这些指标的评估,可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点,可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习

监督微调(SFT)[45]一直是引导大型语言模型(LLMs)遵循人类指令的基础技术。然而,在纯监督场景中,注释数据的多样性和质量可能是不均衡的,而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此,提出了基于强化学习(RL)的微调来解决这些不足。在RL方法中,基于人类反馈的强化学习(RLHF)[104]是最早且最具影响力的基于RL的训练后对齐方法之一。

如图8所示,RLHF首先以偏好标签或奖励信号的形式收集人类反馈,然后使用这些信息训练一个奖励模型。在这个奖励模型的指导下,策略被迭代地调整以更好地匹配人类偏好。与SFT相比,RLHF包含连续的、由偏好驱动的更新,从而带来更强的对齐结果。值得注意的是,现代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都从这些机制中受益,展示了在指令跟随、事实一致性以及用户相关性方面的改进。下面,我们将讨论RLHF的主要组成部分,包括反馈机制、奖励建模和策略学习策略。

这张图展示了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的工作流程,旨在通过训练过程使大型语言模型(LLMs)与人类偏好对齐。图中分为两个主要阶段:奖励训练(Reward Training)和策略训练(Policy Training)。以下是详细解释:

图8: 基于人类反馈的强化学习(RLHF)工作流程

a) 奖励训练 (Reward Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给人类标注者(Human Labeler)进行评估。
  3. 人类标注者 (Human Labeler):

    • 人类标注者对策略模型生成的续篇进行评估,并给出标签(Labels)。
  4. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据人类标注者的标签计算奖励(Reward)。
    • 奖励模型通过调整权重来优化其预测,以更好地匹配人类偏好。
  5. 损失函数 (Loss Function):

    • 损失函数用于衡量奖励模型的预测与人类标注者提供的标签之间的差异。
  6. 更新权重 (Update Weights):

    • 根据损失函数的值,奖励模型的权重被更新,以减少损失并提高预测准确性。
b) 策略训练 (Policy Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给奖励模型进行评估。
  3. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据之前训练得到的权重计算奖励(Reward)。
  4. 损失函数 (Loss Function):

    • 损失函数用于衡量策略模型生成的续篇与奖励模型预测的奖励之间的差异。
  5. 更新权重 (Update Weights):

    • 根据损失函数的值,策略模型的权重被更新,以减少损失并提高生成续篇的质量。

总结

  • 奖励训练 (Reward Training):

    • 通过人类标注者的反馈训练奖励模型,使其能够准确地预测人类偏好。
    • 奖励模型的权重通过反向传播算法进行更新,以最小化损失函数。
  • 策略训练 (Policy Training):

    • 使用训练好的奖励模型来评估策略模型生成的续篇。
    • 策略模型的权重通过反向传播算法进行更新,以最小化损失函数,从而生成更符合人类偏好的续篇。

通过这两个阶段的迭代训练,最终的策略模型能够生成更高质量、更符合人类偏好的续篇。

4.1.1 RLHF中的反馈机制

人类反馈是RLHF的核心,它向奖励模型提供关于用户偏好的信息,并指导策略更新。本小节采用文献[124]中的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与水平和明确性等方面的差异。每种反馈模式对模型优化的不同方面有所贡献,提供了不同层次的可解释性、可扩展性和噪声容忍度。

表3: 人类反馈类型概览

该表可能根据不同的维度对反馈类型进行了分类,例如:

  • 粒度:反馈可以针对整个输出(粗粒度),也可以针对特定部分或步骤(细粒度)。
  • 参与水平:这指的是人类参与者在提供反馈时的深度,从简单的二元判断到详细的解释说明。
  • 明确性:指反馈提供的信息是否直接明确,还是需要模型通过推理或其他方式去理解。

通过这种分类,研究人员和工程师可以根据具体的应用需求选择最适合的反馈模式,以优化模型的表现并提高其与人类偏好的一致性。这种方法使得基于人类反馈的强化学习成为一种强大的工具,用于提升LLMs在各种任务中的表现。

主要反馈(Primary Feedback)

这一类别包括最直接塑造RLHF中奖励模型的反馈类型。例如,Critique [125] 侧重于对代理行为的人类明确评估,通常通过二进制或多标签注释来细化以减少噪声。Comparisons [126] 允许评估者比较多个输出或轨迹;虽然更大的选择集可以提供更丰富的信号,但它们也可能导致因果混淆。Inter-Temporal Feedback [127] 通过在不同时间步骤提供判断来细化轨迹评估,而Proxy Rewards [128] 包含指导模型朝用户定义目标前进的近似奖励函数。Social Behavior [129] 利用隐式线索(如面部表情)使代理目标与用户情感一致。Improvements [130] 强调实时人类干预以进行策略的增量细化。最后,Natural Language Feedback [131] 利用文本信息传达偏好和改进建议。

补充反馈(Supplementary Feedback)

除了主要反馈之外,还有两类进一步加强奖励建模过程。紧急停止(E-stops)[132]允许人类通过停止代理的轨迹而不建议替代方案来进行干预。这种反馈的特点是隐式参与,并且专注于防止不期望的行为。相比之下,重要性标签[133]指出特定观察对于实现目标的重要性,提供了不会直接改变行为的明确反馈。这种反馈因上下文而异,作为补充输入,强化了奖励模型的整体学习过程。

特定表示反馈(Representation-Specific Feedback)

某些类型的反馈主要是增强表示学习而不是直接塑造奖励函数。Feature Traces [134] 提示人类操作员演示给定特征中的单调变化,从而实现特征集的动态扩展。Similarity Queries [135] 比较三元组轨迹,通过轨迹空间中的成对距离引导表示学习。通过利用这些特定表示的反馈形式,RLHF可以在新任务和上下文中实现更强大的泛化能力。

4.1.2 强化学习与人类反馈(RLHF)的奖励模型

  • 距离函数:最近的研究集中在考虑潜在转换(如潜在塑形)的奖励评估距离函数上。例如,EPIC [140] 测量不同转换下的奖励函数等价性,而DARD [141] 改进了规范处理以确保评估基于可行转换。类似EPIC的距离[142]通过允许规范处理、规范化和度量函数的变化来推广EPIC的方法论,STARC [143] 在保持EPIC理论特性的同时提供了额外的灵活性。

  • 视觉和人工检查:其他方法依赖于可解释性和精心策划的数据集来衡量所学奖励函数的有效性。PRFI [144] 使用预处理步骤简化奖励函数同时保留等效性,从而增强其透明度。同时,CONVEXDA 和 REWARDFUSION [145] 提出的数据集旨在测试奖励模型如何一致地响应提示中的语义变化。这些技术共同促进了奖励函数更可靠的评估,强化了大型语言模型与人类偏好的一致性。

4.1.3 RLHF的策略学习

如图9所示,RLHF的策略学习包括通过人类反馈在在线和离线环境中优化策略。

  • 在线学习:在在线RLHF中,系统收集关于新生成模型轨迹的人类实时偏好。像DPS [146]这样的算法使用贝叶斯更新来管理竞争过程,而PPS和PEPS [147]将动态规划和多臂老虎机的想法结合起来以细化策略行为。在LPbRL [148]中,特征嵌入捕捉不断演变的奖励结构,PbOP [149] 集成最小二乘估计用于过渡动态和偏好信号。最近,PARL [150] 通过将反馈获取视为策略优化不可或缺的一部分来提高数据收集效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/72400.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/72400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

热key探测技术架构设计与实践

参考: 得物热点探测技术架构设计与实践 Redis数据倾斜与JD开源hotkey源码分析揭秘 京东热点检测 HotKey 学习笔记 hotkey: 京东App后台中间件,毫秒级探测热点数据,毫秒级推送至服务器集群内存,大幅降低热key对数据层查询压力 …

Windows 环境图形化安装 Oracle 23ai

文章目录 Windows 环境安装23ai下载Oracle 23ai安装包安装安装详细图形界面连接Oracle 23ai 安装过程中遇到的错误安装过其他版本数据库,设置了ORACLE_HOME或 TNS_ADMIN解决方法 无法访问Windows Installer Serviece (error 1719)解决方法 其他注意 参考&#xff1a…

RabbitMQ支持的复杂的消息交换模式

RabbitMQ支持多种复杂的消息交换模式,这些模式通过不同的交换机类型和队列特性实现,能够满足多样化的业务需求。以下是RabbitMQ支持的主要复杂消息交换模式: 1. Direct Exchange(直连交换机) 直连交换机根据消息的路由…

基于SpringBoot3+Druid数据库连接池与外部PostgreSQL的Kubernetes Pod YAML全解析

说明 一个基于Spring Boot 3 Druid 外部PostgreSQL的Kubernetes Pod YAML详细解析,包含最佳实践和关键配置说明: YAML apiVersion: apps/v1 kind: Deployment metadata:name: springboot-applabels:app: springboot-app spec:replicas: 2selector:ma…

Android 全局工具类 AppHolder:高效管理 Application 和 Activity

引言 介绍 AppHolder 的作用:全局管理 Application 和 Activity,简化开发。适用场景:需要全局上下文和生命周期管理的场景。 功能特性 全局上下文管理。Activity 生命周期监听。Fragment 生命周期监听(可选)。应用状态…

PyTorch 深度学习实战(14):Deep Deterministic Policy Gradient (DDPG) 算法

在上一篇文章中,我们介绍了 Proximal Policy Optimization (PPO) 算法,并使用它解决了 CartPole 问题。本文将深入探讨 Deep Deterministic Policy Gradient (DDPG) 算法,这是一种用于连续动作空间的强化学习算法。我们将使用 PyTorch 实现 D…

【深度学习与大模型基础】第5章-线性相关与生成子空间

线性相关是指一组向量中,至少有一个向量可以表示为其他向量的线性组合。具体来说,对于向量组 v1,v2,…,vn,如果存在不全为零的标量 c1,c2,…,cn使得: c1v1c2v2…cnvn0 则称这些向量线性相关。否则,它们线性无关。 举…

【Agent实战】货物上架位置推荐助手(RAG方式+结构化prompt(CoT)+API工具结合ChatGPT4o能力Agent项目实践)

本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权) 目录 结论 效果图示 1.prompt 2. API工具封…

Go语言入门基础详解

一、语言历史背景 Go语言由Google工程师Robert Griesemer、Rob Pike和Ken Thompson于2007年设计,2009年正式开源。设计目标: 兼具Python的开发效率与C的执行性能内置并发支持(goroutine/channel)简洁的类型系统现代化的包管理跨…

HarmonyOS NEXT开发进阶(十二):build-profile.json5 文件解析

文章目录 一、前言二、Hvigor脚本文件三、任务与任务依赖图四、多模块管理4.1 静态配置模块 五、分模块编译六、配置多目标产物七、配置APP多目标构建产物八、定义 product 中包含的 target九、拓展阅读 一、前言 编译构建工具DevEco Hvigor(以下简称Hvigor&#x…

基于SSM + JSP 的图书商城系统

基于SSM的图书商城 网上书城、图书销售系统、图书销售平台 |Java|SSM|HTML|JSP| 项目采用技术: ①:开发环境:IDEA、JDK1.8、Maven、Tomcat ②:技术栈:Java、…

色板在数据可视化中的创新应用

色板在数据可视化中的创新应用:基于色彩感知理论的优化实践 引言 在数据可视化领域,色彩编码系统的设计已成为决定信息传递效能的核心要素。根据《Nature》期刊2024年发布的视觉认知研究,人类大脑对色彩的识别速度比形状快40%,色…

K8S学习之基础二十七:k8s中daemonset控制器

k8s中DaemonSet控制器 ​ DaemonSet控制器确保k8s集群中,所有节点都运行一个相同的pod,当node节点增加时,新节点也会自动创建一个pod,当node节点从集群移除,对应的pod也会自动删除。删除DaemonSet也会删除创建的pod。…

PyTorch 系列教程:使用CNN实现图像分类

图像分类是计算机视觉领域的一项基本任务,也是深度学习技术的一个常见应用。近年来,卷积神经网络(cnn)和PyTorch库的结合由于其易用性和鲁棒性已经成为执行图像分类的流行选择。 理解卷积神经网络(cnn) 卷…

Spring Cloud Stream - 构建高可靠消息驱动与事件溯源架构

一、引言 在分布式系统中,传统的 REST 调用模式往往导致耦合,难以满足高并发和异步解耦的需求。消息驱动架构(EDA, Event-Driven Architecture)通过异步通信、事件溯源等模式,提高了系统的扩展性与可观测性。 作为 S…

王者荣耀道具页面爬虫(json格式数据)

首先这个和英雄页面是不一样的,英雄页面的图片链接是直接放在源代码里面的,直接就可以请求到,但是这个源代码里面是没有的 虽然在检查页面能够搜索到,但是应该是动态加载的,源码中搜不到该链接 然后就去看看是不是某…

【一起来学kubernetes】12、k8s中的Endpoint详解

一、Endpoint的定义与作用二、Endpoint的创建与管理三、Endpoint的查看与组成四、EndpointSlice五、Endpoint的使用场景六、Endpoint与Service的关系1、定义与功能2、创建与管理3、关系与交互4、使用场景与特点 七、Endpoint的kubectl命令1. 查看Endpoint2. 创建Endpoint3. 编辑…

结构型模式之桥接模式:解耦抽象和实现

在面向对象设计中,我们经常遇到需要扩展某些功能,但又不能修改现有代码的情况。为了避免继承带来的复杂性和维护难度,桥接模式(Bridge Pattern)应运而生。桥接模式是一种结构型设计模式,旨在解耦抽象部分和…

如何用Java将实体类转换为JSON并输出到控制台?

在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用JSON格式。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人类阅读和编写,…

Vue3 开发的 VSCode 插件

1. Volar Vue3 正式版发布,Vue 团队官方推荐 Volar 插件来代替 Vetur 插件,不仅支持 Vue3 语言高亮、语法检测,还支持 TypeScript 和基于 vue-tsc 的类型检查功能。 2. Vue VSCode Snippets 为开发者提供最简单快速的生成 Vue 代码片段的方…