牛津大学xDeepMind 自然语言处理（1）

牛津大学xDeepMind 自然语言处理 Natural Language Processing

词向量与词汇语义学 Word Vectors and Lexical Semantics

词语表示的基本问题与分布语义思想
1. 传统词语表示（如独热向量）存在稀疏、正交、语义弱的问题，无法表达语义相似性。
2. 分布语义核心思想：“观其伴而知其词”，即基于词语的上下文 / 使用场景生成稠密向量表示，主要方法分为基于计数、基于预测和基于任务三类。
基于计数的方法
1. 核心流程：定义上下文词汇基C和窗口大小w，统计在语料库中，每个目标词的每个实例左右w个词范围内，上下文词汇基的出现次数，基于这些计数，形成目标词的向量表示。
2. 相似性度量：常用内积或余弦相似度（余弦对范数不敏感，更优）。
3. 优化：需区分信息量高的计数和高频噪声，常用 TF-IDF、PMI 等归一化方法，但存在上下文基选择等问题。
神经嵌入模型
1. 通用思路：收集词语实例及其上下文，定义可微的分数函数和损失，通过优化得到嵌入矩阵 E。
2. 典型模型：
  1. C&W 模型（conv+MLP）：通过卷积和 MLP 处理句子嵌入，用干扰句和铰链损失训练，能捕捉相邻表示信息，但模型深、训练成本高。
  2. CBoW 模型（Transform+softmax）：将上下文词嵌入相加后投影到词汇表，用 softmax 和负对数似然训练，全线性、速度快，有负采样等变体。
  3. Skip-gram 模型（Transform+softmax）：用目标词预测上下文词，嵌入目标词后投影，效率高，需在效率和上下文结构化之间权衡。
神经模型与基于计数模型的比较
1. 核心思想一致，Word2Vec 等价于基于计数模型的 PMI 矩阵分解。
2. 经适当超参数优化后，两者性能相当。
神经方法的优势
1. 易于学习，支持高度并行（小批量、GPU、分布式训练）。
2. 可预测上下文的离散（如词性）和连续（如图像）特征，避免计数方法的稀疏性问题。
词表示的评估
1. 内在评估：通过 WordSim-353、SimLex-999 等数据集测相似度，词语类比任务（如 “女王 = 国王 - 男人 + 女人”），以及嵌入可视化（T-SNE投影、最近邻）等。
2. 外在评估：判断嵌入是否能提升其他任务（如分类、情感分析）的性能。
基于任务的嵌入学习
1. 核心：将嵌入矩阵 E 作为神经网络参数，与网络其他参数联合训练（可从头学或预训练后微调），使嵌入适应任务需求。
2. 典型应用：
  1. BoW 分类器：将词向量叠加作为特征，用于情感分析、文档分类等，但无法处理歧义、多义性，语义较浅。
  2. 双语特征学习：通过最大化对齐句子对的相似度（用噪声对比边际损失避免退化），使嵌入反映高层意义，提升跨语言表示能力。
3. 局限性：任务嵌入仅捕捉任务相关信息，可能缺乏通用语义，可通过多任务学习或预训练 + 任务投影缓解，但存在挑战。
总结
1. 词向量是文本神经网络的核心输入，可单独训练、在任务中训练或结合两者。
2. 迁移学习中，重用预训练词向量适用于数据少或词汇覆盖低的场景；数据充足时，任务内训练嵌入更优，但可重用性降低。

RNN和语言建模

语言模型基础
1. 定义：语言模型为词序列分配概率，满足所有可能序列的概率和为 1，可用于比较词序合理性（如翻译、语音识别）。
2. 核心分解：基于链式法则将联合概率分解为条件概率的乘积，即 $p(w1,...wN)=∏n=1Np(wn∣w1,...,wn−1)p(w_1,...w_N)=∏^N_{n=1}p(w_n|w_1,...,w_{n-1})$ ，核心是学习 “给定历史预测下一词” 的条件分布。
3. 评估指标：交叉熵（衡量编码文本所需比特数）和困惑度（衡量模型对每个词的惊讶程度， $perplexity=2^{cross-entropy}$ ）。
4. 数据注意事项：需区分训练集（过去）和测试集（未来），避免数据泄露；常用数据集包括 Penn Treebank、Billion Word Corpus，WikiText 更优。
基于计数的 n-gram 语言模型
1. 马尔可夫假设：用前k-1个词近似历史（k 阶马尔可夫模型），如 2-gram 模型假设 $p(w_1,...,w_n)≈p(w_1)p(w_2|w_1)p(w_3|w_2)×...×p(w_n|w_{n-1})$ 。
2. 概率估计：最大似然估计通过计数计算，如 3-gram 概率 $p(w_3|w_1,w_2)=count(w_1,w_2,w_3)/count(w_1,w_2)$
3. 平滑与回退：解决稀疏性问题，如线性插值 $p(w_n|w_{n-2},w_{n-1})=λ_3p(w_n|w_{n-2},w_{n-1})+λ_2p(w_n|w_{n-1})+λ_1p(w_n)$ ， $λ_3+λ_2+λ_1 = 1$ Kneser-Ney 是常用高级方法。
4. 优缺点：可扩展性强、训练快，但无法捕捉长依赖和语义相似性（如 “cat” 与 “dog”）。
神经 n-gram 语言模型
1. 模型结构：用前馈网络处理固定 n-gram 历史（如 trigram 的 $w_{n-2},w_{n-1}$ ），通过嵌入层将独热向量转为稠密向量，经隐藏层后用 softmax 输出下一词概率。
2. 训练：以交叉熵为损失，通过反向传播优化参数，各时间步梯度独立可并行计算。
3. 优缺点：对未见过的 n-gram 泛化更好，但对已见过的 n-gram 性能略差；模型参数规模小于传统 n-gram，但仍受限于固定 n-gram 长度，无法捕捉长距离依赖，且参数随 n-gram 大小增加而增长。
循环神经网络语言模型（RNN LM）
1. 模型结构：抛弃固定 n-gram 历史，通过隐藏状态 $h_n=g(V[x_n;h_{n-1}]+c)$ 压缩整个历史，用 $y^n=Whn+b\hat{y}_n=Wh_n+b$ 和 softmax 输出下一词概率，实现对任意长度历史的建模。
2. 训练：通过时间反向传播（BPTT）计算梯度，需考虑各时间步梯度的依赖关系；截断时间反向传播（TBPTT）通过固定时间步截断依赖，提高计算效率。
3. 复杂度与批处理：BPTT 计算量与序列长度线性相关，TBPTT 为常数；批处理在 GPU 上可加速矩阵运算，但序列长度不一致时效率较低。
4. 优缺点：能表示无限依赖，参数规模不随依赖长度增长（但随隐藏层容量增加）；但难以学习长距离依赖，且隐藏层扩大会导致计算和内存成本二次增长。
偏差与方差权衡
1. n-gram 模型：偏差高（固定历史近似）但方差低（依赖高频计数）。
2. RNN 模型：大幅降低偏差（捕捉全历史），但可能增加方差，需通过优化平衡。
长距离依赖与梯度问题
1. 核心挑战：简单 RNN 理论上可表示长距离依赖，但实际中因循环权重 $V_h$ 的重复乘法导致梯度消失（特征值 <1）或爆炸（特征值> 1），无法有效学习长距离关联。
2. 非线性影响：激活函数（如 tanh、sigmoid）的导数进一步缩小梯度，加剧问题。
门控循环网络（LSTM 与 GRU）
1. LSTM：通过输入门（ $i_n$ ）、遗忘门（ $f_n$ ）、输出门（ $o_n$ ）和细胞状态 $c_n$ 控制信息流动，细胞状态通过加法更新（减轻梯度衰减），隐藏状态 $h_n$ 由输出门调制，有效捕捉长依赖。
2. GRU：简化 LSTM 结构，合并输入门和遗忘门为更新门（ $z_n$ ），新增重置门（ $r_n$ ）控制历史信息的使用，参数更少，计算效率更高。
3. 优缺点：门控机制显著缓解梯度问题，是神经机器翻译、语音识别等任务的关键；但参数和计算量多于普通 RNN，每个参数的记忆容量较低。
深度循环神经网络 Deep RNN LMs
1. 扩展方式：通过增加网络深度（空间维度）或时间维度深度提升表示能力，避免单纯扩大隐藏层导致的二次成本增长。
2. 典型结构：多层 RNN（空间深度）和循环高速公路网络（时间深度，类似 GRU 的深度单元），在语言建模中表现优异。
大词汇量处理
1. 核心瓶颈：softmax 计算 $p^n=softmax(Whn+b)\hat{p}_n=softmax(Wh_n+b)$ 的成本随词汇量 $V$ 线性增长，成为效率瓶颈。
2. 解决方案：
  1. 短列表与混合模型：高频词用神经 LM，低频词用 n-gram，但损失泛化能力。
  2. 采样与近似梯度：噪声对比估计（NCE）将问题转为二分类，重要性采样（IS）用多分类，降低训练成本但不影响测试。
  3. 词汇分解：一级分类（如布朗聚类）加速 $V\sqrt{V}$ ,树结构分解（如二叉树）加速 $l o g V$ ，平衡计算效率与性能。
3. 子词建模：以字符或语素为单位，消除未登录词，捕捉形态特征，但序列更长且依赖距离更远。
正则化

Dropout：仅应用于非循环连接，避免循环掩码导致的信息丢失；

贝叶斯 Dropout 通过绑定循环掩码并在评估时采样，增强泛化。
总结与核心观点
1. 长距离依赖：门控网络（LSTM/GRU）是解决梯度问题、捕捉长依赖的主流方案。
2. 模型扩展：深度 RNN 在空间 / 时间维度扩展，以线性成本提升容量；大词汇量通过分解或采样优化 softmax 效率。
3. 权衡关系：语言建模需平衡偏差与方差（n-gram vs RNN）、性能与效率（模型容量 vs 计算成本）、泛化与针对性（通用表示 vs 任务适配）。