文章目录
- 前言
- 1. 加载与预处理数据集
- 数据读取与词元化
- 构建词汇表
- 截断、填充与数据迭代器
- 2. 构建循环神经网络模型
- 双向RNN模型(BiRNN)详解
- 权重初始化
- 3. 加载预训练词向量
- 构建词向量加载器
- 将预训练向量注入模型
- 4. 训练与评估模型
- 定义训练函数
- 可视化训练过程
- 5. 模型预测
- 编写预测函数
- 实例测试
- 6. 总结
前言
在信息爆炸的时代,从海量的文本数据中提取有价值的信息变得至关重要。无论是电商网站的商品评论、社交媒体上的用户反馈,还是新闻文章中的观点倾向,理解文本背后的情感色彩——即情感分析——都有着广泛的应用。
循环神经网络(RNN)由于其对序列数据的强大建模能力,天然地适用于处理文本这类具有时序特征的数据。在本篇博客中,我们将从零开始,使用PyTorch框架构建一个基于双向循环神经网络(Bi-RNN)的情感分析模型。我们不仅会详细讲解数据预处理、模型构建、训练评估的全过程,还将引入预训练的GloVe词向量来提升模型的性能。
这篇博客的目标是“从代码学习深度学习”。因此,我们将完整地展示每一个模块的代码,并配以详尽的解释,力求让读者不仅能看懂代码,更能理解每一行代码背后的原理和设计思想。无论您是深度学习初学者,还是希望系统学习PyTorch在自然语言处理中应用的开发者,相信都能从中获益。
让我们一起踏上这场代码与思想的探索之旅吧!
完整代码:下载链接
1. 加载与预处理数据集
任何成功的NLP项目都始于坚实的数据处理。我们的任务是分析IMDb电影评论的情感,这是一个经典的二分类问题(正面/负面)。在这一步,我们将完成从原始文本文件到PyTorch数据迭代器的全部转换过程。
主逻辑由load_data_imdb
函数驱动,它调用了一系列辅助函数来完成任务。
# 情感分析:使用循环神经网络.ipynbimport torch
import utils_for_data
from torch import nnbatch_size = 64
train_iter, test_iter, vocab = utils_for_data.load_data_imdb(batch_size)
上面的代码是我们的入口,它调用utils_for_data.load_data_imdb
来获取训练/测试数据迭代器和词汇表。现在,让我们深入utils_for_data.py
和utils_for_vocab.py
,看看这一切是如何实现的。
数据读取与词元化
首先,我们需要从压缩包中读取IMDb数据集的文本和标签。read_imdb
函数负责遍历指定目录,读取每个评论文件并为其打上正面(1)或负面(0)的标签。
# utils_for_data.pyimport os
import zipfile
import tarfile
import utils_for_vocab
import torch.utils.data as data
import torchdef extract(name, folder=None):"""下载并解压zip/tar文件参数:name (str): 要解压的文件名/路径,维度: [字符串]folder (str, optional): 指定的文件夹名称,维度: [字符串] 或 None返回:str: 解压后的目录路径,维度: [字符串]"""base_dir = os.path.dirname(name)data_dir, ext = os.path.splitext(name)if ext == '.zip':fp = zipfile.ZipFile(name, 'r')elif ext in ('.tar', '.gz'):fp = tarfile.open(name, 'r')else:assert False, '只有zip/tar文件可以被解压缩'fp.extractall(base_dir)fp.close()return os.path.join(base_dir, folder) if folder else data_dirdef read_imdb(data_dir, is_train):"""读取IMDb评论数据集文本序列和标签参数:data_dir (str): 数据集根目录路径is_train (bool): 是否读取训练集,True为训练集,False为测试集返回:tuple: (data, labels)data (list): 评论文本列表,维度为 [样本数量]labels (list): 标签列表,维度为 [样本数量],1表示正面评价,0表示负面评价"""data = []labels = []for label in ('pos', 'neg'):folder_name = os.path.join(data_dir, 'train' if is_train else 'test', label)for file in os.listdir(folder_name):file_path = os.path.join(folder_name, file)with open(file_path, 'rb') as f:review = f.read().decode('utf-8').replace('\n', '')data.append(review)labels.append(1 if label == 'pos' else 0)return data, labels
拿到原始文本后,我们需要将其分解为模型可以理解的基本单元——词元(Token)。这个过程称为词元化(Tokenization)。tokenize
函数可以按单词或字符进行分割。
# utils_for_vocab.pyimport torch
import torch.utils.data
from collections import Counterdef tokenize(lines, token='word'):"""将文本行拆分为单词或字符词元参数:lines (list): 文本行列表,维度: [行数],每个元素为字符串token (str): 词元化类型,维度: [标量],'word'表示按单词分割,'char'表示按字符分割返回:tokenized_lines (list): 词元化后的文本,维度: [行数 × 词元数],嵌套列表结构"""if token == 'word':return [line.split() for line in lines]elif token == 'char':return [list(line) for line in lines]else:print('错误:未知词元类型:' + token)
构建词汇表
计算机无法直接处理文本,我们需要将词元映射为数字索引。Vocab
类就是为此设计的。它会统计所有词元的频率,并只保留那些出现频率高于min_freq
的词元,其余的都归为未知词元<unk>
。这不仅能减小词汇表的大小,还能过滤掉噪音。
# utils_for_vocab.pydef count_corpus(tokens):"""统计词元出现频率参数:tokens (list): 词元列表,维度: [词元数] 或 [序列数 × 词元数](嵌套列表)返回:counter (Counter): 词元频率统计对象,键为词元,值为出现次数"""if len(tokens) == 0 or isinstance(tokens[0], list):tokens = [token for line in tokens for token in line]return Counter(tokens)class Vocab:"""文本词汇表类,用于管理词元到索引的映射关系"""def __init__(self, tokens=None, min_freq=0, reserved_tokens=None):"""初始化词汇表参数:tokens (list): 词元列表,维度: [词元数] 或 [序列数 × 词元数]min_freq (int): 最小词频阈值,维度: [标量],低于此频率的词元将被忽略reserved_tokens (list): 保留词元列表,维度: [保留词元数],如特殊标记"""if tokens is None:tokens = []if reserved_tokens is None:reserved_tokens = []counter = count_corpus(tokens)self._token_freqs = sorted(counter.items()<