FLAN-T5：规模化指令微调的语言模型

摘要

在将数据集表述为指令的形式上进行语言模型微调，已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调，特别关注以下三个方面：(1) 任务数量的扩展，(2) 模型规模的扩展，以及 (3) 基于链式思维（chain-of-thought）数据的微调。我们发现，结合上述方面的指令微调显著提升了多种模型类别（如PaLM、T5、U-PaLM）、提示设置（如零样本、少样本、链式思维）以及评估基准（如MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts）的性能。例如，在1.8K个任务上进行指令微调的Flan-PaLM 540B模型，其性能大幅超越了原始PaLM 540B模型（平均提升+9.4%）。Flan-PaLM 540B在多个基准测试中达到了最先进的性能，例如在五样本MMLU测试中达到了75.2%的准确率。我们还公开发布了Flan-T5的检查点，这些检查点即使与更大的模型（如PaLM 62B）相比，也表现出强大的少样本性能。总体而言，指令微调是一种提升预训练语言模型性能和可用性的通用方法。
在这里插入图片描述

1 引言

人工智能的一个重要目标是开发能够泛化到未见任务的模型。在自然语言处理（NLP）领域，预训练语言模型在这一目标上取得了显著进展，因为它们能够根据自然语言描述执行任务（Brown 等，2020，及其他）。通过在以指令形式表述的任务集合上对语言模型进行微调，进一步推动了这一进展，这使得模型能够更好地响应指令，并减少对少样本示例的需求（Ouyang 等，2022；Wei 等，2021；Sanh 等，2021，及其他）。

本文从多个方面推进了指令微调的研究。首先，我们研究了扩展对指令微调的影响。实验表明，指令微调在任务数量和模型规模方面具有良好的扩展性。它们的扩展行为表明，未来的研究应进一步扩大任务数量和模型规模。其次，我们研究了微调对模型执行推理任务能力的影响。实验表明，虽然之前的指令微调方法未包含链式思维（CoT；Wei 等，2022b）会严重降低在CoT评估中的性能，但在微调混合数据中仅加入九个CoT数据集即可在所有评估中实现更好的性能。

基于这些发现，我们训练了Flan-PaLM模型，使用了一个5400亿参数的模型，将微调任务数量增加到1.8K，并包含CoT数据。Flan-PaLM在多个基准测试中超越了PaLM，达到了新的最先进水平。例如，Flan-PaLM改进的推理能力使其能够利用CoT和自一致性（Wang 等，2022c）在Massive Multi-task Language Understanding（MMLU；Hendrycks 等，2020）上达到75.2%的准确率。与PaLM相比，Flan-PaLM还提升了多语言能力，例如在单样本TyDiQA（Clark 等，2020）上绝对提升了14.9%，在低资源语言的算术推理（Shi 等，2022）上提升了8.1%。在人类评估中，Flan-PaLM在一组具有挑战性的开放式生成问题上显著优于PaLM，表明其可用性得到了提升。此外，我们还发现指令微调在多个负责任的人工智能评估基准上也能提升性能。

此外，我们还对Flan-T5模型（80M到11B）进行了指令微调。这些检查点具有强大的零样本、少样本和CoT能力，优于之前的公开检查点，如T5（Raffel 等，2020）。例如，Flan-T5 11B在某些具有挑战性的BIG-Bench任务（Srivastava 等，2022）上相比T5 11B实现了两位数的性能提升，甚至超越了PaLM 62B。总体而言，我们的结果强调了指令微调如何在一系列模型、提示设置和评估任务中提升性能。

在这里插入图片描述

2 Flan微调

我们在多种数据源（图2）上使用多种指令模板类型（图3）进行指令微调。我们将这种微调过程称为Flan（Finetuning language models；Wei 等，2021），并在微调后的模型名称前加上“Flan”（例如，Flan-PaLM）。我们展示了Flan在多种模型规模和架构上的有效性（表2）。

2.1 微调数据

任务混合。先前的研究表明，增加指令微调中的任务数量可以提高对未见任务的泛化能力（Wei 等，2021；Sanh 等，2021，及其他）。在本文中，我们通过结合来自先前工作的四个任务混合集（Muffin、T0-SF、NIV2和CoT）将微调任务数量扩展到1,836个，如图2所示。Muffin（80个任务）包括来自Wei等（2021）的62个任务以及我们在本工作中新增的26个任务，涵盖对话数据（Byrne 等，2019；Anantha 等，2021；Dai 等，2022）和程序合成数据（Yasunaga 和 Liang，2020；Li 等，2022）。T0-SF（193个任务）包括来自T0（Sanh 等，2021）的任务，这些任务与Muffin中使用的数据不重叠（SF表示“sans Flan”）。NIV2（1554个任务）包括来自Wang等（2022c）的任务。

在这里插入图片描述

链式思维（CoT）微调混合数据。第四种微调数据混合集（推理）涉及CoT注释，我们用它来探索在CoT注释上进行微调是否能提高对未见推理任务的性能。我们从先前的工作中创建了一个包含九个数据集的新混合集，这些数据集的训练语料库由人工评分者手动编写了CoT注释。这九个数据集包括算术推理（Cobbe 等，2021）、多跳推理（Geva 等，2021）和自然语言推理（Camburu 等，2020）等任务。我们为每个任务手动编写了十个指令模板。数据卡片见附录F。

模板和格式化。对于Muffin、T0-SF和NIV2，我们使用任务创建者提供的指令模板。对于CoT，我们为九个数据集中的每一个手动编写了大约十个指令模板。为了创建少样本模板，我们编写了多种示例分隔符（例如，“Q:”/“A:”），并在示例级别随机应用它们。图3展示了带有和不带有示例、以及带有和不带有CoT的格式化示例。

2.2 微调过程

在本文中，我们在多种模型系列上应用指令微调，包括T5（Raffel 等，2020）、PaLM（Chowdhery 等，2022）和U-PaLM（Tay 等，2022b）。这些模型系列涵盖了从Flan-T5-small（8000万参数）到PaLM和U-PaLM（5400亿参数）的不同规模。对于每个模型，我们采用相同的训练过程，除了少数超参数：学习率、批量大小、dropout和微调步数。我们使用恒定学习率调度，并使用Adafactor优化器（Shazeer 和 Stern，2018）进行微调。我们使用打包（Raffel 等，2020）将多个训练示例组合成一个序列，使用序列结束标记将输入与目标分开。应用掩码以防止标记跨越打包示例边界相互关注。每个模型的微调步数、学习率、批量大小和dropout值见附录E。对于每个模型，我们使用单个检查点进行所有评估；最佳步数是基于对保留任务的定期评估（每2k到10k步，取决于模型规模）选择的，并且在给定模型的所有消融运行中使用相同的检查点步数。值得注意的是，微调使用的计算量相对于训练计算量仅占很小一部分，如表2所示。例如，我们仅使用0.2%的预训练计算量来对Flan-PaLM 540B进行指令微调（约512个v4 TPU芯片运行37小时）。我们使用基于JAX的T5X框架（Bradbury 等，2018；Roberts 等，2022）。

在这里插入图片描述

2.3 评估协议

评估基准。我们重点关注未包含在微调数据中的保留任务的性能。我们对Flan-PaLM在世界知识和推理任务上的整体能力感兴趣。因此，我们在多种不同的基准上评估模型，包括多语言基准。我们没有使用Brown等（2020）的评估集，因为几乎所有那些任务的训练集都包含在我们的微调混合数据中。相反，我们使用以下具有挑战性的基准，当前的语言模型在这些基准上的表现仍远低于人类专家评分者。（1）MMLU（Hendrycks等，2020）包括来自57个任务的考试问题，如数学、历史、法律和医学。（2）BBH包括来自BIG-Bench（Srivastava等，2022）的23个具有挑战性的任务，PaLM在这些任务上的表现低于人类评分者的平均水平（Suzgun等，2022）。（3）TyDiQA（Clark等，2020）是一个涵盖8种类型多样语言的问答基准。（4）MGSM（Shi等，2022）是一个多语言数学应用题基准，数据来自Cobbe等（2021）并手动翻译成10种语言。这些基准也在PaLM论文（Chowdhery等，2022）中使用，该论文未发现与预训练数据存在任何有意义的数据污染，这与之前工作中的数据污染分析一致（Brown等，2020；Wei等，2021；Du等，2022）。负责任的人工智能评估在附录C中讨论。

评估方法和指标。对于MMLU和BBH，我们评估了通过直接提示（模型直接给出答案；Brown等，2020；Srivastava等，2022）和链式思维（CoT）提示（模型在给出最终答案前必须提供推理链；Wei等，2022b）的能力。对于TyDiQA，我们仅测量直接提示的精确匹配分数，因为突出显示包含正确答案的段落部分可能不需要复杂的推理。对于MGSM，我们仅测量CoT提示的准确性，因为直接提示的性能非常低。对于所有基准，我们使用给定的少样本示例，示例数量遵循先前的工作：MMLU为五样本，BBH为三样本，TyDiQA为单样本，MGSM为八样本。对于给定模型，我们还报告了一个“归一化平均值”指标，遵循BIG-Bench中的“归一化优选指标”（Srivastava等，2022）。我们的归一化平均值指标是六个归一化分数的宏观平均值：MMLU-直接、MMLU-CoT、BBH-直接、BBH-CoT、TyDiQA-直接和MGSM-CoT。每个基准中所有任务的结果见附录D。一些负责任的人工智能基准使用附录C中描述的生成任务的额外方法。

3 扩展到5400亿参数和1.8K任务

我们首先研究了在（1）模型规模和（2）微调任务数量方面的扩展对保留任务性能的影响。我们通过在三种PaLM模型规模（8B、62B和540B）上进行实验来扩展模型规模。为了扩展任务数量，我们依次添加任务混合集，从任务最少的混合集开始，逐步增加到任务最多的混合集：CoT、Muffin、T0-SF和NIV2。

图4展示了这两个变量的扩展对保留基准归一化平均值的联合影响。各个基准的结果见表3。首先，我们可以看到，对于所有三种模型规模，多任务指令微调相比未微调的模型显著提升了性能，性能提升范围在9.4%到15.5%之间。

其次，增加微调任务数量可以提高性能，尽管大部分改进来自于使用最多282个任务。对于超过282个任务后性能提升较小的现象，有两种可能的解释。一种解释是额外的任务多样性不足，因此未能为模型提供新的知识。另一种解释是，多任务指令微调的大部分收益来自于模型学习更好地表达其从预训练中已经掌握的知识，而超过282个任务并没有带来太多帮助。第二种解释可能更合理，因为预训练数据包含7800亿个token，而指令微调仅使用了14亿个token（占预训练token的0.2%）。

最后，我们发现，将模型规模扩大一个数量级（即从8B到62B，或从62B到540B）显著提升了微调和未微调模型的性能。需要注意的是，确定指令微调对小模型还是大模型的改进更大（与未微调的基线相比）可能较为复杂。例如，尽管8B模型的绝对增益大于540B模型（8B为15.5%，540B为9.4%），但540B模型的错误率相对减少幅度更大（540B为18.4%，8B为16.6%）。

绘制这些扩展曲线为我们提供了关于进一步扩展模型规模和任务数量如何提升性能的洞察。将模型规模再扩大一个数量级（尽管具有挑战性）预计会带来显著的性能提升。扩展微调任务数量也应能提高性能，尽管可能只是逐步的改进。总体而言，绘制的扩展曲线表明，未来的工作应继续扩展指令微调。

在这里插入图片描述

4 使用链式思维注释进行微调

Flan微调的目标是生成一个在多种评估中表现更好的检查点，这包括多步推理能力以及传统的NLP任务。在本节中，我们探讨了在指令微调混合数据中包含链式思维（CoT）数据的效果。首先，我们展示了Flan-PaLM在多个基准测试中超越先前模型的改进推理能力。然后，我们通过消融实验分析了CoT微调数据，结果表明，没有CoT的指令微调实际上会降低推理能力，而仅包含九个CoT数据集即可在所有评估中提升性能。最后，我们展示了CoT微调通过在具有挑战性的BIG-Bench任务中使用“让我们逐步思考”来实现零样本推理的能力。

4.1 使用链式思维微调提高了对保留任务的推理能力

我们首先展示了在微调混合数据中包含九个带有链式思维（CoT）注释的数据集可以提高推理能力。表4显示，Flan-PaLM在四个保留评估基准上的CoT提示能力优于PaLM。对于BBH，我们遵循Suzgun等（2022）的协议，将任务分为NLP任务和算法任务。

表4还展示了如何将CoT提示与自一致性（SC；Wang等，2022b）结合，以在多个基准测试中实现新的最先进性能。例如，在MMLU基准测试（Hendrycks等，2020）中，Flan-PaLM 540B达到了75.2%。这显著优于之前的模型（PaLM = 69.3%，code-davinci-002 = 68.3%，Chinchilla = 67.6%）。在多语言数学问题基准MGSM上，使用CoT + SC的Flan-PaLM显著提升了SOTA性能，即使在低资源语言上也表现出色，例如在孟加拉语上达到69.6%。相比之下，使用CoT + SC的PaLM在法语和德语等高资源语言上仅分别达到63.6%和61.2%。最后，在GSM8K（Cobbe等，2021，表中未显示）上，使用CoT + SC的Flan-PaLM实现了新的SOTA，达到83.9%，但需要注意的是，GSM8K的训练数据集包含在指令微调混合数据中。

在这里插入图片描述

我们还注意到，Flan-PaLM在某些专门模型上并未达到SOTA（最先进水平）。例如，在BBH-algo（包含仅需要符号操作的任务，例如保持一组乱序对象的顺序、按字母顺序对单词列表进行排序）上，即使使用CoT + SC，Flan-PaLM也未能超越code-davinci-002。此外，尽管Flan-PaLM在单样本TyDiQA上比PaLM提升了14.9%，但仍未达到在TyDiQA训练集上微调的ByT5的水平（Xue等，2022）。

4.2 需要一些链式思维数据以保持推理能力

接下来，我们通过消融实验分析了在指令微调中仅包含九个CoT数据集的效果。我们将评估分为保留的CoT基准（MMLU、BBH和MGSM）和保留的非CoT基准（MMLU、BBH和TyDiQA），并分别计算CoT和非CoT的归一化平均值。在图5-左中，结合非CoT和CoT微调在保留的CoT基准上的性能优于仅使用CoT微调。图5-右证实，正如预期的那样，与非CoT微调相比，结合CoT和非CoT微调不会影响非CoT任务的性能。
在这里插入图片描述

一个重要的问题是，图5-左还表明，为了保持这种推理能力，微调一些CoT示例是至关重要的，因为仅对非CoT数据进行微调会显著降低CoT任务的性能，如绿线所示。这种性能下降可能令人惊讶，因为之前的多项研究发现，指令微调可以提高对未见任务的性能（Wei等，2021；Sanh等，2021；Wang等，2019a；Min等，2022，及其他）。然而，之前的工作仅评估了保留的NLP任务（例如，微调除情感分析之外的所有任务，然后在情感分析基准上进行评估），而且之前的模型通常规模较小，无法成功进行CoT推理。综合来看，这一消融实验可以解释为：当未见任务与微调任务处于相同的提示范式（即非CoT或CoT）时，指令微调可以提高对未见任务的性能。因此，需要同时包含非CoT和CoT数据，以提升模型在所有评估中的能力。

4.3 解锁零样本推理

在CoT数据上进行指令微调的另一个最终好处是，无论是否使用示例，生成的模型都能够在零样本设置中执行CoT推理。这种零样本设置很重要，因为它测试了模型在没有少样本CoT示例的情况下生成自身推理技能的能力，而这通常需要大量的提示工程来正确构建。

图6显示，在包含23个未见挑战性BIG-Bench任务的BBH基准测试中，Flan-PaLM模型通过利用“让我们逐步思考”这一短语激活的CoT推理（Kojima等，2022），能够实现性能提升。相比之下，未经微调的PaLM无法生成能够解决这些问题的CoT。图7展示了PaLM和Flan-PaLM在零样本CoT中的三个示例。

尽管PaLM在零样本CoT上的负面结果可能与Kojima等（2022）的研究结果看似矛盾，但仔细比较后发现它们并不矛盾。该论文中大多数成功的零样本CoT实验实际上利用了InstructGPT（Ouyang等，2022），而InstructGPT经过了指令微调（我们假设这种指令微调包含了一些类似CoT的数据）。在未经微调的PaLM上成功进行的零样本CoT实验仅针对数学应用题，这与BBH中的问题类型有显著不同。

在这里插入图片描述