FLAN-T5:规模化指令微调的语言模型

摘要

在将数据集表述为指令的形式上进行语言模型微调,已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调,特别关注以下三个方面:(1) 任务数量的扩展,(2) 模型规模的扩展,以及 (3) 基于链式思维(chain-of-thought)数据的微调。我们发现,结合上述方面的指令微调显著提升了多种模型类别(如PaLM、T5、U-PaLM)、提示设置(如零样本、少样本、链式思维)以及评估基准(如MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。例如,在1.8K个任务上进行指令微调的Flan-PaLM 540B模型,其性能大幅超越了原始PaLM 540B模型(平均提升+9.4%)。Flan-PaLM 540B在多个基准测试中达到了最先进的性能,例如在五样本MMLU测试中达到了75.2%的准确率。我们还公开发布了Flan-T5的检查点,这些检查点即使与更大的模型(如PaLM 62B)相比,也表现出强大的少样本性能。总体而言,指令微调是一种提升预训练语言模型性能和可用性的通用方法。
在这里插入图片描述

1 引言

人工智能的一个重要目标是开发能够泛化到未见任务的模型。在自然语言处理(NLP)领域,预训练语言模型在这一目标上取得了显著进展,因为它们能够根据自然语言描述执行任务(Brown 等,2020,及其他)。通过在以指令形式表述的任务集合上对语言模型进行微调,进一步推动了这一进展,这使得模型能够更好地响应指令,并减少对少样本示例的需求(Ouyang 等,2022;Wei 等,2021;Sanh 等,2021,及其他)。

本文从多个方面推进了指令微调的研究。首先,我们研究了扩展对指令微调的影响。实验表明,指令微调在任务数量和模型规模方面具有良好的扩展性。它们的扩展行为表明,未来的研究应进一步扩大任务数量和模型规模。其次,我们研究了微调对模型执行推理任务能力的影响。实验表明,虽然之前的指令微调方法未包含链式思维(CoT;Wei 等,2022b)会严重降低在CoT评估中的性能,但在微调混合数据中仅加入九个CoT数据集即可在所有评估中实现更好的性能。

基于这些发现,我们训练了Flan-PaLM模型,使用了一个5400亿参数的模型,将微调任务数量增加到1.8K,并包含CoT数据。Flan-PaLM在多个基准测试中超越了PaLM,达到了新的最先进水平。例如,Flan-PaLM改进的推理能力使其能够利用CoT和自一致性(Wang 等,2022c)在Massive Multi-task Language Understanding(MMLU;Hendrycks 等,2020)上达到75.2%的准确率。与PaLM相比,Flan-PaLM还提升了多语言能力,例如在单样本TyDiQA(Clark 等,2020)上绝对提升了14.9%,在低资源语言的算术推理(Shi 等,2022)上提升了8.1%。在人类评估中,Flan-PaLM在一组具有挑战性的开放式生成问题上显著优于PaLM,表明其可用性得到了提升。此外,我们还发现指令微调在多个负责任的人工智能评估基准上也能提升性能。

此外,我们还对Flan-T5模型(80M到11B)进行了指令微调。这些检查点具有强大的零样本、少样本和CoT能力,优于之前的公开检查点,如T5(Raffel 等,2020)。例如,Flan-T5 11B在某些具有挑战性的BIG-Bench任务(Srivastava 等,2022)上相比T5 11B实现了两位数的性能提升,甚至超越了PaLM 62B。总体而言,我们的结果强调了指令微调如何在一系列模型、提示设置和评估任务中提升性能。

在这里插入图片描述
在这里插入图片描述

2 Flan微调

我们在多种数据源(图2)上使用多种指令模板类型(图3)进行指令微调。我们将这种微调过程称为Flan(Finetuning language models;Wei 等,2021),并在微调后的模型名称前加上“Flan”(例如,Flan-PaLM)。我们展示了Flan在多种模型规模和架构上的有效性(表2)。

2.1 微调数据

任务混合。先前的研究表明,增加指令微调中的任务数量可以提高对未见任务的泛化能力(Wei 等,2021;Sanh 等,2021,及其他)。在本文中,我们通过结合来自先前工作的四个任务混合集(Muffin、T0-SF、NIV2和CoT)将微调任务数量扩展到1,836个,如图2所示。Muffin(80个任务)包括来自Wei等(2021)的62个任务以及我们在本工作中新增的26个任务,涵盖对话数据(Byrne 等,2019;Anantha 等,2021;Dai 等,2022)和程序合成数据(Yasunaga 和 Liang,2020;Li 等,2022)。T0-SF(193个任务)包括来自T0(Sanh 等,2021)的任务,这些任务与Muffin中使用的数据不重叠(SF表示“sans Flan”)。NIV2(1554个任务)包括来自Wang等(2022c)的任务。

在这里插入图片描述

链式思维(CoT)微调混合数据。第四种微调数据混合集(推理)涉及CoT注释,我们用它来探索在CoT注释上进行微调是否能提高对未见推理任务的性能。我们从先前的工作中创建了一个包含九个数据集的新混合集,这些数据集的训练语料库由人工评分者手动编写了CoT注释。这九个数据集包括算术推理(Cobbe 等,2021)、多跳推理(Geva 等,2021)和自然语言推理(Camburu 等,2020)等任务。我们为每个任务手动编写了十个指令模板。数据卡片见附录F。

模板和格式化。对于Muffin、T0-SF和NIV2,我们使用任务创建者提供的指令模板。对于CoT,我们为九个数据集中的每一个手动编写了大约十个指令模板。为了创建少样本模板,我们编写了多种示例分隔符(例如,“Q:”/“A:”),并在示例级别随机应用它们。图3展示了带有和不带有示例、以及带有和不带有CoT的格式化示例。

2.2 微调过程

在本文中,我们在多种模型系列上应用指令微调,包括T5(Raffel 等,2020)、PaLM(Chowdhery 等,2022)和U-PaLM(Tay 等,2022b)。这些模型系列涵盖了从Flan-T5-small(8000万参数)到PaLM和U-PaLM(5400亿参数)的不同规模。对于每个模型,我们采用相同的训练过程,除了少数超参数:学习率、批量大小、dropout和微调步数。我们使用恒定学习率调度,并使用Adafactor优化器(Shazeer 和 Stern,2018)进行微调。我们使用打包(Raffel 等,2020)将多个训练示例组合成一个序列,使用序列结束标记将输入与目标分开。应用掩码以防止标记跨越打包示例边界相互关注。每个模型的微调步数、学习率、批量大小和dropout值见附录E。对于每个模型,我们使用单个检查点进行所有评估;最佳步数是基于对保留任务的定期评估(每2k到10k步,取决于模型规模)选择的,并且在给定模型的所有消融运行中使用相同的检查点步数。值得注意的是,微调使用的计算量相对于训练计算量仅占很小一部分,如表2所示。例如,我们仅使用0.2%的预训练计算量来对Flan-PaLM 540B进行指令微调(约512个v4 TPU芯片运行37小时)。我们使用基于JAX的T5X框架(Bradbury 等,2018;Roberts 等,2022)。

在这里插入图片描述

2.3 评估协议

评估基准。我们重点关注未包含在微调数据中的保留任务的性能。我们对Flan-PaLM在世界知识和推理任务上的整体能力感兴趣。因此,我们在多种不同的基准上评估模型,包括多语言基准。我们没有使用Brown等(2020)的评估集,因为几乎所有那些任务的训练集都包含在我们的微调混合数据中。相反,我们使用以下具有挑战性的基准,当前的语言模型在这些基准上的表现仍远低于人类专家评分者。(1)MMLU(Hendrycks等,2020)包括来自57个任务的考试问题,如数学、历史、法律和医学。(2)BBH包括来自BIG-Bench(Srivastava等,2022)的23个具有挑战性的任务,PaLM在这些任务上的表现低于人类评分者的平均水平(Suzgun等,2022)。(3)TyDiQA(Clark等,2020)是一个涵盖8种类型多样语言的问答基准。(4)MGSM(Shi等,2022)是一个多语言数学应用题基准,数据来自Cobbe等(2021)并手动翻译成10种语言。这些基准也在PaLM论文(Chowdhery等,2022)中使用,该论文未发现与预训练数据存在任何有意义的数据污染,这与之前工作中的数据污染分析一致(Brown等,2020;Wei等,2021;Du等,2022)。负责任的人工智能评估在附录C中讨论。

评估方法和指标。对于MMLU和BBH,我们评估了通过直接提示(模型直接给出答案;Brown等,2020;Srivastava等,2022)和链式思维(CoT)提示(模型在给出最终答案前必须提供推理链;Wei等,2022b)的能力。对于TyDiQA,我们仅测量直接提示的精确匹配分数,因为突出显示包含正确答案的段落部分可能不需要复杂的推理。对于MGSM,我们仅测量CoT提示的准确性,因为直接提示的性能非常低。对于所有基准,我们使用给定的少样本示例,示例数量遵循先前的工作:MMLU为五样本,BBH为三样本,TyDiQA为单样本,MGSM为八样本。对于给定模型,我们还报告了一个“归一化平均值”指标,遵循BIG-Bench中的“归一化优选指标”(Srivastava等,2022)。我们的归一化平均值指标是六个归一化分数的宏观平均值:MMLU-直接、MMLU-CoT、BBH-直接、BBH-CoT、TyDiQA-直接和MGSM-CoT。每个基准中所有任务的结果见附录D。一些负责任的人工智能基准使用附录C中描述的生成任务的额外方法。

3 扩展到5400亿参数和1.8K任务

我们首先研究了在(1)模型规模和(2)微调任务数量方面的扩展对保留任务性能的影响。我们通过在三种PaLM模型规模(8B、62B和540B)上进行实验来扩展模型规模。为了扩展任务数量,我们依次添加任务混合集,从任务最少的混合集开始,逐步增加到任务最多的混合集:CoT、Muffin、T0-SF和NIV2。

图4展示了这两个变量的扩展对保留基准归一化平均值的联合影响。各个基准的结果见表3。首先,我们可以看到,对于所有三种模型规模,多任务指令微调相比未微调的模型显著提升了性能,性能提升范围在9.4%到15.5%之间。

其次,增加微调任务数量可以提高性能,尽管大部分改进来自于使用最多282个任务。对于超过282个任务后性能提升较小的现象,有两种可能的解释。一种解释是额外的任务多样性不足,因此未能为模型提供新的知识。另一种解释是,多任务指令微调的大部分收益来自于模型学习更好地表达其从预训练中已经掌握的知识,而超过282个任务并没有带来太多帮助。第二种解释可能更合理,因为预训练数据包含7800亿个token,而指令微调仅使用了14亿个token(占预训练token的0.2%)。

最后,我们发现,将模型规模扩大一个数量级(即从8B到62B,或从62B到540B)显著提升了微调和未微调模型的性能。需要注意的是,确定指令微调对小模型还是大模型的改进更大(与未微调的基线相比)可能较为复杂。例如,尽管8B模型的绝对增益大于540B模型(8B为15.5%,540B为9.4%),但540B模型的错误率相对减少幅度更大(540B为18.4%,8B为16.6%)。

绘制这些扩展曲线为我们提供了关于进一步扩展模型规模和任务数量如何提升性能的洞察。将模型规模再扩大一个数量级(尽管具有挑战性)预计会带来显著的性能提升。扩展微调任务数量也应能提高性能,尽管可能只是逐步的改进。总体而言,绘制的扩展曲线表明,未来的工作应继续扩展指令微调。

在这里插入图片描述
在这里插入图片描述

4 使用链式思维注释进行微调

Flan微调的目标是生成一个在多种评估中表现更好的检查点,这包括多步推理能力以及传统的NLP任务。在本节中,我们探讨了在指令微调混合数据中包含链式思维(CoT)数据的效果。首先,我们展示了Flan-PaLM在多个基准测试中超越先前模型的改进推理能力。然后,我们通过消融实验分析了CoT微调数据,结果表明,没有CoT的指令微调实际上会降低推理能力,而仅包含九个CoT数据集即可在所有评估中提升性能。最后,我们展示了CoT微调通过在具有挑战性的BIG-Bench任务中使用“让我们逐步思考”来实现零样本推理的能力。

4.1 使用链式思维微调提高了对保留任务的推理能力

我们首先展示了在微调混合数据中包含九个带有链式思维(CoT)注释的数据集可以提高推理能力。表4显示,Flan-PaLM在四个保留评估基准上的CoT提示能力优于PaLM。对于BBH,我们遵循Suzgun等(2022)的协议,将任务分为NLP任务和算法任务。

表4还展示了如何将CoT提示与自一致性(SC;Wang等,2022b)结合,以在多个基准测试中实现新的最先进性能。例如,在MMLU基准测试(Hendrycks等,2020)中,Flan-PaLM 540B达到了75.2%。这显著优于之前的模型(PaLM = 69.3%,code-davinci-002 = 68.3%,Chinchilla = 67.6%)。在多语言数学问题基准MGSM上,使用CoT + SC的Flan-PaLM显著提升了SOTA性能,即使在低资源语言上也表现出色,例如在孟加拉语上达到69.6%。相比之下,使用CoT + SC的PaLM在法语和德语等高资源语言上仅分别达到63.6%和61.2%。最后,在GSM8K(Cobbe等,2021,表中未显示)上,使用CoT + SC的Flan-PaLM实现了新的SOTA,达到83.9%,但需要注意的是,GSM8K的训练数据集包含在指令微调混合数据中。

在这里插入图片描述

我们还注意到,Flan-PaLM在某些专门模型上并未达到SOTA(最先进水平)。例如,在BBH-algo(包含仅需要符号操作的任务,例如保持一组乱序对象的顺序、按字母顺序对单词列表进行排序)上,即使使用CoT + SC,Flan-PaLM也未能超越code-davinci-002。此外,尽管Flan-PaLM在单样本TyDiQA上比PaLM提升了14.9%,但仍未达到在TyDiQA训练集上微调的ByT5的水平(Xue等,2022)。

4.2 需要一些链式思维数据以保持推理能力

接下来,我们通过消融实验分析了在指令微调中仅包含九个CoT数据集的效果。我们将评估分为保留的CoT基准(MMLU、BBH和MGSM)和保留的非CoT基准(MMLU、BBH和TyDiQA),并分别计算CoT和非CoT的归一化平均值。在图5-左中,结合非CoT和CoT微调在保留的CoT基准上的性能优于仅使用CoT微调。图5-右证实,正如预期的那样,与非CoT微调相比,结合CoT和非CoT微调不会影响非CoT任务的性能。
在这里插入图片描述

一个重要的问题是,图5-左还表明,为了保持这种推理能力,微调一些CoT示例是至关重要的,因为仅对非CoT数据进行微调会显著降低CoT任务的性能,如绿线所示。这种性能下降可能令人惊讶,因为之前的多项研究发现,指令微调可以提高对未见任务的性能(Wei等,2021;Sanh等,2021;Wang等,2019a;Min等,2022,及其他)。然而,之前的工作仅评估了保留的NLP任务(例如,微调除情感分析之外的所有任务,然后在情感分析基准上进行评估),而且之前的模型通常规模较小,无法成功进行CoT推理。综合来看,这一消融实验可以解释为:当未见任务与微调任务处于相同的提示范式(即非CoT或CoT)时,指令微调可以提高对未见任务的性能。因此,需要同时包含非CoT和CoT数据,以提升模型在所有评估中的能力。

4.3 解锁零样本推理

在CoT数据上进行指令微调的另一个最终好处是,无论是否使用示例,生成的模型都能够在零样本设置中执行CoT推理。这种零样本设置很重要,因为它测试了模型在没有少样本CoT示例的情况下生成自身推理技能的能力,而这通常需要大量的提示工程来正确构建。

图6显示,在包含23个未见挑战性BIG-Bench任务的BBH基准测试中,Flan-PaLM模型通过利用“让我们逐步思考”这一短语激活的CoT推理(Kojima等,2022),能够实现性能提升。相比之下,未经微调的PaLM无法生成能够解决这些问题的CoT。图7展示了PaLM和Flan-PaLM在零样本CoT中的三个示例。

尽管PaLM在零样本CoT上的负面结果可能与Kojima等(2022)的研究结果看似矛盾,但仔细比较后发现它们并不矛盾。该论文中大多数成功的零样本CoT实验实际上利用了InstructGPT(Ouyang等,2022),而InstructGPT经过了指令微调(我们假设这种指令微调包含了一些类似CoT的数据)。在未经微调的PaLM上成功进行的零样本CoT实验仅针对数学应用题,这与BBH中的问题类型有显著不同。

在这里插入图片描述
在这里插入图片描述

温馨提示:
阅读全文请访问"AI深语解构" FLAN-T5:规模化指令微调的语言模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/913500.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/913500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式文章

1. 工厂模式 | 菜鸟教程

Xilinx Vivado开发环境快速导出hdf文件(bat批处理)

Xilinx FPGA使用Vivado开发环境创建MicroBlaze软核或ZYNQ PS侧SDK逻辑工程时,需要FPGA侧搭建的硬件平台文件,即hdf文件,常规方式是编译完成生成bit流文件后,通过File->Export->Export Hardware菜单来导出,在弹出…

UniApp 中实现智能吸顶 Tab 标签导航效果

前言在移动端应用开发中,Tab 标签导航是一种常见的交互模式。本文将详细介绍如何在 UniApp 中实现一个功能完善的智能吸顶 Tab 导航组件,该组件具有以下特性:🎯 智能显示:根据滚动位置动态显示/隐藏📌 吸顶…

ElasticSearch快速入门-1

文章目录Elasticsearch简介ES概念ES和关系型数据库的对比正序索引和倒序索引安装es、kibana、IK分词器ES操作_cat操作Mapping映射属性索引库操作索引库CRUD文档CRUD文档批处理操作Java客户端操作ESElasticsearch简介 就是一个搜索引擎数据库 以下都简称ES ES概念 ES和关系型…

【论文撰写】如何把AI生成的文本公式复制在word中,完整的复制公式,拷贝豆包生成的公式

1、问题描述 AI生成的内容 在对于含有公式的生成内容,直接拷贝到Word 会呈现类Markdown的格式,除了格式上,公式也不是标准格式。 如下列两个图片对比 2、工具 这时,就需要用另一个工具进行转换 Home - Snip Web Mathpix Acc…

【机器学习笔记 Ⅱ】5 矩阵乘法

矩阵乘法是神经网络、图形学、科学计算等领域的核心运算,用于高效处理线性变换和批量数据计算。以下是其数学定义、计算规则及实际应用的系统解析。1. 数学定义2. 计算步骤(示例)3. 代码实现 (1) Python(NumPy) import…

【数字后端】- 衡量design的congestion情况

基础概念 通常在RP的placement之后,就要去去查看设计的Density和Congestion情况。 而congestion的衡量指标有以下两点: (1)Overflow Congestion 分析基于一个基本『单元』称为GCELL: Routing Grid cell. Gcell 是工具自己定义…

Oracle面试题-体系结构

📌1.如何查看 Oracle 数据库的版本信息? 1. 标准 SQL 查询(推荐) 方法 1:查询 v$version 视图(最常用) SELECT * FROM v$version;输出示例: BANNER -------------------------------…

Flex布局原理

1.布局原理 flex 是 flexible Box 的缩写,意为"弹性布局",用来为盒状模型提供最大的灵活性,任何一个容器都可以 指定为 flex 布局。 当我们为父盒子设为 flex 布局以后,子元素的 float、clear 和 vertical-align 属性将…

JavaScript 模块系统二十年:混乱、分裂与出路

JavaScript 模块系统:一场至今未醒的历史梦魇 一、引言:我们真的解决了“模块化”吗? 你可能以为,JavaScript 模块系统早已标准化,import/export 就是答案。 但现实却是另一番景象:构建报错、依赖冲突、加…

人工智能-基础篇-23-智能体Agent到底是什么?怎么理解?(智能体=看+想+做)

1、智能体是什么? 想象你有一个超级聪明的小助手,它能: 自己看环境(比如看到天气、听到声音、读到数据);自己做决定(比如下雨了要关窗,电量低要去充电);自己…

Java实现项目1——弹射球游戏

项目:弹射球游戏 项目描述: 类似于乒乓球的游戏,游戏可以播放背景音乐,可以更换背景图,当小球碰到下面的挡板后会反弹,当小球碰到方块后会增加分数,当小球掉落会导致游戏失败,按下…

(十八)深入了解 AVFoundation-编辑:添加背景音乐与音量控制(下)——实战篇

一、功能目标回顾在理论篇中,我们系统地介绍了如何使用 AVFoundation 添加背景音乐音轨,并通过 AVMutableAudioMix 与 AVMutableAudioMixInputParameters 实现多音轨混音与音量控制。我们了解了诸如淡入淡出、静音控制、动态音量曲线等核心技术细节。本篇…

如何在新机器上设置github完成内容git push

如果你在一台新的机器上git pull 仓库,完成修改,然后git push,会发现下面错误: Username for https://github.com: xiaomaolv Password for https://xiaomaolvgithub.com: remote: Support for password authentication was rem…

Rust 注释

Rust 注释 引言 Rust 编程语言以其内存安全、并发支持和高性能等特点在软件开发领域获得了广泛的关注。在Rust编程中,注释是一种非常重要的元素,它不仅可以帮助程序员理解代码,还可以提高代码的可维护性和可读性。本文将详细介绍Rust中的注释…

Flink Oracle CDC 环境配置与验证

一、Oracle 数据库核心配置详解 1. 启用归档日志(Archiving Log) Oracle CDC 依赖归档日志获取增量变更数据,需按以下步骤启用: 非CDB数据库配置: -- 以DBA身份连接数据库 CONNECT sys/password AS SYSDBA; -- …

ssh: Could not resolve hostname d: Temporary failure in name resolution

关于不能本机上传文件夹到服务器上的一个问题的记录。 scp -r "D:\***\datasets" usernamexxxxxx:接收文件夹名 一直报错:ssh: Could not resolve hostname d: Temporary failure in name resolution 反复尝试发现无果之后想起来,在传输的时候…

2025年的前后端一体化CMS框架优选方案

以下是结合技术生态、开发效率和商业落地验证,整理的2025年前后端一体化CMS框架优选方案:一、‌主流成熟框架组合‌1. ‌React Node.js (Express/Next.js)‌‌前端‌:React生态成熟,配合Redux状态管理,适合复杂后台界…

《声音的变形记:Web Audio API的实时特效法则》

用户期待更丰富、更具沉浸感的听觉体验时,基于Web Audio API实现的实时音频特效,就像是为这片森林注入了灵动的精灵,让简单的声音蜕变为震撼人心的听觉盛宴。回声特效带来空间的深邃回响,变声效果赋予声音全新的个性面貌。接下来&…

LLM场景下的强化学习【PPO】

适合本身对强化学习有基本了解 一、什么是强化学习 一句话:在当前状态(State)下,智能体(Agent)与环境(Environment)交互,并采取动作(Action)进入下一状态,过程中获得奖励(Reward,有正向有负向),从而实现从…