Language Models are Unsupervised Multitask Learners ：语言模型是无监督的多任务学习者

摘要

自然语言处理任务，如问答、机器翻译、阅读理解和摘要，通常通过在特定任务的数据集上进行监督学习来解决。我们展示了语言模型在训练于一个包含数百万网页的新数据集——WebText——时，可以无需任何显式监督就开始学习这些任务。当模型以文档加问题为条件时，生成的答案在CoQA数据集上达到55的F1分数——这匹配甚至超过了4个基线系统中的3个表现，且没有使用超过127,000个训练样本。语言模型的容量对零样本任务迁移的成功至关重要，且随着容量增加，性能在多个任务上呈对数线性提升。我们最大的模型GPT-2拥有15亿参数的Transformer结构，在零样本设置下，在8个测试的语言建模数据集中有7个达到最先进水平，但仍未完全拟合WebText。模型生成的示例反映了这些改进，包含连贯的文本段落。这些发现表明，基于自然出现的示范，构建能自动学习执行任务的语言处理系统是一个有希望的发展方向。

1. 引言

机器学习系统现在通过结合大规模数据集、高容量模型和监督学习，能够在其训练的任务上表现卓越（Krizhevsky等，2012；Sutskever等，2014；Amodei等，2016）。然而，这些系统相对脆弱，对数据分布的细微变化（Recht等，2018）和任务规范的调整（Kirkpatrick等，2017）非常敏感。当前系统更像是狭隘的专家，而非具备广泛能力的通用智能。我们希望朝着能执行多种任务的更通用系统迈进——最终无需为每个任务手动创建和标注训练数据集。

构建机器学习系统的主流方法是收集一组演示期望行为的训练样本，训练系统模仿这些行为，然后在独立且同分布（IID）的保留样本上测试其性能。此方法对打造狭隘专家非常有效。但图像说明模型（Lake等，2017）、阅读理解系统（Jia & Liang，2017）以及图像分类器（Alcorn等，2018）在面对多样输入时的表现不稳定，凸显了此方法的局限。

我们怀疑单任务训练且仅用单一领域数据是当前系统泛化能力不足的主要原因。要取得更稳健的系统进展，可能需要在更广泛的领域和任务上训练并衡量性能。最近已有多个基准被提出，如GLUE（Wang等，2018）和decaNLP（McCann等，2018），以开始研究这一方向。

多任务学习（Caruana，1997）是提升整体性能的有前景的框架，但在自然语言处理领域的多任务训练仍处于初期阶段。近期工作报告了适度的性能提升（Yogatama等，2019），而迄今为止最雄心勃勃的两项工作仅在10和17组（数据集，目标）对上进行训练（McCann等，2018；Bowman等，2018）。从元学习角度看，每一对（数据集，目标）都是从数据集和目标的分布中采样的一个训练样本。当前机器学习系统需要数百甚至数千个样本来归纳出良好泛化的函数。这表明多任务训练也可能需要大量有效的训练对，才能发挥其潜力。用现有技术依靠暴力扩展数据集和目标设计显然困难重重。这促使我们探索更多适合多任务学习的方案。

当前在语言任务上表现最佳的系统，采用预训练加监督微调的组合。这一路径历史悠久，呈现出更灵活的迁移趋势。最初是学习词向量并将其作为任务专用架构的输入（Mikolov等，2013；Collobert等，2011），随后转向迁移循环网络的上下文表示（Dai & Le，2015；Peters等，2018），而近期工作表明任务专用架构已不再必需，仅转移多个自注意力层即可（Radford等，2018；Devlin等，2018）。

在这里插入图片描述

这些方法仍然需要通过监督训练来完成任务。当只有极少或没有监督数据时，另一类工作展示了语言模型在执行特定任务上的潜力，比如常识推理（Schwartz 等，2017）和情感分析（Radford 等，2017）。

在本文中，我们将这两条研究路线结合起来，继续推动更加通用的迁移方法的发展。我们证明了语言模型可以在零样本设置下执行下游任务——无需任何参数或架构的修改。我们通过展示语言模型在零样本设置下执行多种任务的能力，表明该方法具有潜力。根据具体任务，我们取得了有前景的、具竞争力的甚至最先进的结果。

2. 方法

我们方法的核心是语言建模。语言建模通常被定义为对一组样本 (x₁, x₂, …, xₙ) 的无监督分布估计，每个样本由长度可变的符号序列 (s₁, s₂, …, sₙ) 组成。由于语言具有自然的顺序性，通常会将符号的联合概率分解为条件概率的乘积（Jelinek & Mercer, 1980）（Bengio 等，2003）：
$\prod _ { i = 1 } ^ { n } p ( s _ { n } | s _ { 1 } , . . . , s _ { n - 1 } )\quad(1)$
这种方法不仅使得从分布 p(x) 中进行采样和估计成为可行，同时也可以估计形式为 $p ( s _ { n - k } , . . . , s _ { n } | s _ { 1 } , . . . , s _ { n - k - 1 } )$ 的条件概率。近年来，能够计算这些条件概率的模型表达能力有了显著提升，例如自注意力架构——Transformer（Vaswani 等，2017）。

学习执行单个任务可以用概率框架表示为估计条件分布 $p (o u tp u t ∣ in p u t)$ 。由于一个通用系统应能执行多种不同任务，即使输入相同，它也应不仅基于输入，还基于需要执行的任务进行条件建模，也就是建模 $p (o u tp u t ∣ in p u t, t a s k)$ 。这在多任务学习和元学习框架中有多种形式的实现。任务条件通常在架构层面实现，如 Kaiser 等（2017）提出的任务特定编码器和解码器，或者在算法层面实现，如 MAML（Finn 等，2017）的内外循环优化框架。但正如 McCann 等（2018）所示，语言提供了一种灵活的方式，将任务、输入和输出都表示为符号序列。例如，一个翻译训练样本可以写成序列（translate to french, english text, french text）；同样，一个阅读理解训练样本可以写成（answer the question, document, question, answer）。McCann 等（2018）展示了可以训练一个单一模型 MQAN，基于这类格式推断并执行多种不同任务。

从原则上讲，语言建模也能够学习 McCann 等（2018）中描述的任务，而无需明确监督哪些符号是需要预测的输出。因为监督目标和无监督目标相同，只是监督目标仅在序列的子集上评估，所以无监督目标的全局最小值同时也是监督目标的全局最小值。在这种略显“玩具化”的设置下，Sutskever 等（2015）中对密度估计作为训练目标的担忧得以规避。问题变成我们是否能够在实践中优化无监督目标直至收敛。初步实验确认，足够大的语言模型能够在这种玩具式多任务学习设置下进行学习，但学习速度远慢于明确监督的方法。

尽管从上述良构的设置到“真实语言环境”的复杂性有很大差距，Weston（2016）在对话场景中提出了直接从自然语言中学习的必要性，并展示了一个概念验证——通过预测教师输出实现无奖励信号的问答任务学习。虽然对话方法很有吸引力，我们担心它过于限制性。互联网包含大量被动可用的信息，无需交互通信。我们的推测是，拥有足够容量的语言模型会开始学习推断和执行自然语言序列中展示的任务，以更好地预测它们，无论这些信息的获取方式如何。如果语言模型能够做到这一点，它实际上就是在进行无监督的多任务学习。我们通过分析语言模型在零样本设置下对各种任务的表现来检验这一点。

2.1. 训练数据集

之前的大多数工作都在单一领域的文本上训练语言模型，比如新闻文章（Jozefowicz 等，2016）、维基百科（Merity 等，2016）或小说书籍（Kiros 等，2015）。我们的方法则激励构建尽可能大且多样化的数据集，以收集在尽可能多样化的领域和上下文中自然语言形式的任务演示。

一个有前景的多样且几乎无限制的文本来源是网络爬取的数据，如 Common Crawl。尽管这些数据量比现有语言模型训练集大几个数量级，但它们存在显著的数据质量问题。Trinh & Le（2018）在其常识推理工作中使用了 Common Crawl，但指出其中有大量“内容大部分难以理解”的文档。我们在最初用 Common Crawl 进行实验时也观察到了类似的问题。Trinh & Le（2018）取得的最佳结果是基于对 Common Crawl 的一个小规模子集，该子集仅包含与他们目标数据集——Winograd Schema Challenge 最相似的文档。虽然这是提高特定任务性能的务实做法，但我们希望避免事先对要执行的任务做出假设。
在这里插入图片描述

相反，我们创建了一个新的网络爬取数据集，重点强调文档质量。为此，我们只爬取经过人工筛选/过滤的网页。对整个网络进行人工过滤代价极高，因此作为起点，我们爬取了社交媒体平台 Reddit 上所有获得至少 3 点 karma 的外链。这可以看作是一个启发式指标，用以判断其他用户是否觉得该链接有趣、有教育意义或仅仅是好笑。

得到的数据集名为 WebText，包含了这 4500 万链接中的文本部分。为了从 HTML 响应中提取文本，我们结合使用了 Dragnet（Peters & Lecocq, 2013）和 Newspaper 1 内容提取器。本文中所有的结果均基于 WebText 的初步版本，该版本不包含 2017 年 12 月之后创建的链接，经过去重和一些基于启发式的清理后，包含略超过 800 万篇文档，总计约 40 GB 文本。我们从 WebText 中移除了所有维基百科文档，因为维基百科是其他数据集的常见数据源，可能导致训练数据与测试评估任务存在重叠，进而使分析变得复杂。

2.2 输入表示

通用语言模型（LM）应该能够计算（并生成）任意字符串的概率。当前的大规模语言模型包括预处理步骤，如小写化、分词以及处理未登录词，这些步骤限制了模型可处理字符串的空间。虽然将 Unicode 字符串作为 UTF-8 字节序列处理能够优雅地满足这一需求（如 Gillick 等人（2015）的工作所示），但目前基于字节的语言模型在大型数据集（例如 One Billion Word Benchmark，Al-Rfou 等，2018）上的表现不如基于单词的模型。我们在尝试在 WebText 上训练标准字节级语言模型时也观察到了类似的性能差距。

字节对编码（Byte Pair Encoding，BPE）（Sennrich 等，2015）是一种介于字符级和单词级语言模型之间的实用折中方案，它有效地在高频符号序列使用单词级输入，低频符号序列使用字符级输入。尽管名字叫“字节对编码”，但现有参考实现通常是在 Unicode 码点上操作，而非字节序列。这些实现要求包含全部 Unicode 符号空间才能建模所有 Unicode 字符串，导致基础词汇表超过 13 万个符号，再加上多符号词元，这个词汇表规模过大，远超通常使用的 32,000 到 64,000 的 BPE 词汇表大小。相比之下，字节级的 BPE 仅需要基础词汇大小为 256。

然而，直接将 BPE 应用于字节序列会因为 BPE 使用贪心的基于频率的启发式方法构建词汇而导致子最优的合并结果。我们观察到 BPE 会生成许多单词的不同版本，比如“dog”，会出现“dog”、“dog!”、“dog?” 等多种变体，导致有限的词汇槽和模型容量分配不理想。为避免这种情况，我们阻止 BPE 在不同字符类别之间合并任何字节序列，对空格除外，这显著提升了压缩效率，同时只带来极少的词汇切分碎片化。

这种输入表示方式允许我们结合单词级语言模型的经验优势和字节级方法的通用性。由于我们的方法可以为任何 Unicode 字符串分配概率，这使得我们能够在任何数据集上评估语言模型，无论其预处理、分词或词汇大小如何。

2.3 模型

我们使用基于 Transformer（Vaswani 等，2017）的架构来构建语言模型。该模型大体遵循 OpenAI GPT 模型（Radford 等，2018）的设计细节，但做了一些修改。层归一化（Layer Normalization）（Ba 等，2016）被移到了每个子模块的输入端，类似于预激活残差网络（He 等，2016）；此外，在最后一个自注意力（self-attention）模块之后还增加了一个额外的层归一化。初始化方式也做了调整，以考虑随着模型深度增长残差路径上的累积效应。具体来说，我们在初始化时，将残差层的权重按 $\sqrt { N }$ 的比例缩放，其中N是残差层的数量。词汇表扩展到了50,257个词元。我们还将上下文长度从512个词元增加到了1024个，同时使用了更大的批量大小512。

在这里插入图片描述

3. 实验

我们训练并基准测试了四个大致以对数均匀间隔划分大小的语言模型。架构概要见表2。最小的模型相当于原始的GPT，第二小的模型则相当于BERT（Devlin 等，2018）中最大的模型。我们最大的模型，称为GPT-2，其参数数量比GPT多了一个数量级以上。每个模型的学习率都是针对WebText中5%的保留样本手动调优以达到最佳困惑度（perplexity）。所有模型对WebText仍然存在欠拟合，且增加训练时间尚未显著改善保留样本上的困惑度。

3.1 语言建模

作为零样本任务迁移的初步步骤，我们关注WebText训练的语言模型在其主任务——语言建模上的零样本领域迁移表现。由于我们的模型在字节级别操作，不依赖任何有损的预处理或分词方法，因此可以在任意语言模型基准上进行评估。语言建模数据集的结果通常以一个量化指标报告，该指标是对每个规范预测单位（通常是字符、字节或单词）负对数概率的平均值做指数变换得到的困惑度。我们通过计算WebText语言模型对数据集的对数概率并除以规范单位数来评估同一指标。对于许多数据集，WebText语言模型会面临较大分布外（out-of-distribution）的挑战，因为它们需要预测经过高度标准化的文本、分词伪影（如断开的标点符号和缩写形式）、打乱的句子，甚至字符串 <UNK>，这在WebText中极为罕见——40亿字节中仅出现26次。我们在表3中报告了主要结果，使用了可逆的去分词器（de-tokenizers），以尽可能去除这些分词或预处理的伪影。由于这些去分词器是可逆的，我们仍然能够计算数据集的对数概率，同时它们也可以被看作是一种简单的领域自适应方法。使用这些去分词器，GPT-2的困惑度提升了2.5到5个百分点。

在这里插入图片描述