NLP-数据集介绍（并不全，文本类介绍）

第一章 STS（语义文本相似度）（重点）
- 一、SemEval STS 年度任务（2012-2017）
- - 1. SemEval-2012 STS
  - 2. SemEval-2013 STS
  - 3. SemEval-2014 STS
  - 4. SemEval-2015 STS
  - 5. SemEval-2016 STS
  - 6. SemEval-2017 STS
- 二、STS Benchmark（2017）
- 三、跨语言 STS（XSTS）
- - 1. XSTS-2016
  - 2. XLM-TSV
- 四、领域专用 STS 数据集
- - 1. 医疗 STS（MedSTS）
  - 2. 法律 STS（Legal-STS）
- 五、其他衍生数据集
- - 1. SICK 数据集
  - 2. MRPC（Microsoft Research Paraphrase Corpus）
第二章文本聚类任务：
- 一、通用文本聚类数据集
- - 1. 20 Newsgroups
  - 2. Reuters-21578
  - 3. Amazon Product Reviews
- 二、领域特定聚类数据集
- - 1. BBC News
  - 2. ArXiv论文摘要（CS子集）
  - 3. COVID-19开放研究数据集
- 三、多语言聚类数据集
- - 1. Multi-Domain Sentiment Dataset (MDSD)
  - 2. THUCNews（中文）
- 四、聚类评估数据集（带真实标签）
第三章无监督训练数据集：
- - 1. Wikipedia 语料库（训练）
  - 2. Common Crawl
  - 3. BookCorpus
  - 4. Project Gutenberg
  - 5. OpenWebText（补充推荐）
第四章情感分析任务：
- - 1.MR (Movie Reviews)（重要）
  - 2.CR (Customer Reviews)（重要）
  - 3.SST (Stanford Sentiment Treebank)（重要）
  - 4.Tweet (Twitter Sentiment Analysis)
第五章文本立场/主观性分类（Subjectivity/Stance）
- - 1.SUBJ (Subjectivity Dataset)（重要）
  - 2.MPQA (MPQA Opinion Corpus)（重要）
第六章问答与语义相似度（QA & Semantic Similarity）
- - 1.TREC (TREC Question Classification)（重要）
  - 2.MRPC (Microsoft Research Paraphrase Corpus)（重要）
  - 3.SS (Semantic Similarity)
第七章新闻与长文本分类（News & Long-Text）
- - 1.AG (AG News)
  - 2.G-T (Gutenberg-Times Corpus)
  - 3.G-TS (Gutenberg-Times with Timestamps)
第八章领域特定分类（Domain-Specific）
- - 1.Bio (BioText)
  - 2.Go-S (Gene Ontology Sentences)
  - 3.SO (Stack Overflow)
  - 4.TC (Text Classification, 如新闻分类)
  - 5.BS (可能为Bias Summarization或Book Summaries)
第九章句法与语法分析
- - 1.TreeD (Treebank Data, 如Penn Treebank)
  - 2.Tense
  - 3.CoordI (Coordination Identification)
第十章词汇与语义任务
- - 1.WC (可能为Word Classification或Word Context)
  - 2.SubjN/ObjN (Subjective/Object Nouns)
  - 3.SOMO (可能为Semantic Orientation)
第十一章、自然语言推理（NLI）
- - 1. SNLI (Stanford NLI)（重点）
  - 2. MultiNLI
  - 3. XNLI

第一章 STS（语义文本相似度）（重点）

是自然语言处理中的核心任务，目标是衡量两个文本片段（句子或短语）在语义上的相似程度，输出范围为 0（完全不相关）到 5（完全等价）。

一、SemEval STS 年度任务（2012-2017）

每年任务通常包含训练集（Train）和测试集（Test），部分年份提供开发集（Dev）。以下是具体划分：

1. SemEval-2012 STS

训练集：无官方训练集（依赖外部数据或迁移学习）。
测试集：约 3,000 对句子（英语 + 西班牙语）。
领域：新闻标题、机器翻译输出。
语言：英语、西班牙语
特点：首次引入跨语言相似度任务。

2. SemEval-2013 STS

训练集：约 1,500 对句子（英语 + 西班牙语）。
测试集：约 2,000 对句子（新增阿拉伯语）。
领域：新闻、论坛讨论。
语言：英语、西班牙语、阿拉伯语
创新：增加阿拉伯语支持。

3. SemEval-2014 STS

训练集：约 4,500 对句子（英语 + 西班牙语）。
测试集：约 3,750 对句子（含图像描述对）。
领域：新闻标题、Flickr30K 图像描述。
语言：英语、西班牙语
亮点：引入图像描述对（文本-图像跨模态关联）。

4. SemEval-2015 STS

训练集：约 8,000 对句子（英语 + 西班牙语）。
测试集：约 1,000 对句子。
领域：新闻、论坛、问答对。
语言：英语、西班牙语
数据量：约 9,000 对句子（含训练集和测试集）。

5. SemEval-2016 STS

训练集：约 6,000 对句子（英语 + 阿拉伯语）。
测试集：约 1,200 对句子。
领域：新闻标题、学术文本。
语言：英语、阿拉伯语
挑战：处理复杂句式（如否定、比喻）。

6. SemEval-2017 STS

训练集：约 5,000 对句子（英语 + 西班牙语 + 阿拉伯语）。
测试集：约 1,500 对句子。
语言：英语、西班牙语、阿拉伯语
领域：新闻、社交媒体、问答对
遗产：成为后续研究的基准参考。

二、STS Benchmark（2017）

训练集：5,499 对句子（来自 SemEval 2012-2016 的混合数据）。
开发集：500 对句子（用于调参）。
测试集：1,379 对句子（来自 SemEval 2017）。
评分范围：0-5 分（连续值）。
用途：BERT、RoBERTa 等模型的通用评估基准。
定位：标准化评估集（非年度任务）
数据量：5,749 对句子（训练集 5,499 / 开发集 500 / 测试集 1,379）
领域：新闻标题、论坛讨论、图像描述、问答对

三、跨语言 STS（XSTS）

1. XSTS-2016

训练集：3,000 对句子（英语-西班牙语对齐）。
测试集：1,000 对句子。
评分：人工标注 0-5 分。
任务目标：跨语言语义相似度（如英语-西班牙语）
语言：英语-西班牙语对齐句子对。
应用：评估跨语言嵌入模型（如 LASER、mBERT）。

2. XLM-TSV

训练集：50,000 对句子（多语言混合）。
测试集：10,000 对句子（覆盖 15 种语言）。
特点：自动生成 + 人工修正。
语言：多语言扩展（英语、德语、法语等）

四、领域专用 STS 数据集

1. 医疗 STS（MedSTS）

训练集：800 对临床文本。
测试集：200 对句子。
评分：医生标注 0-5 分。
领域：临床文本
数据量：约 1,000 对句子

2. 法律 STS（Legal-STS）

训练集：600 对法律条款。
测试集：200 对句子。
挑战：长文本（平均 50 词/句）。
领域：法律条款、合同
数据量：约 800 对句子
挑战：专业术语和长文本匹配。

五、其他衍生数据集

1. SICK 数据集

训练集：4,500 对句子。
开发集：500 对句子。
测试集：4,927 对句子。
标签：语义关联度（1-5 分） + 关系标签（蕴含/矛盾/中立）。
领域：常识推理
数据量：10,000 对句子
特点：包含语义关联、矛盾、中立标签。

2. MRPC（Microsoft Research Paraphrase Corpus）

训练集：4,076 对句子。
测试集：1,725 对句子。
标签：二分类（1=复述，0=非复述）。
任务：二分类（是否为复述）
数据量：5,800 对句子
用途：复述检测基准（STS 的简化版）。

第二章文本聚类任务：

一、通用文本聚类数据集

1. 20 Newsgroups

内容：约20,000篇新闻组文档，分为20个主题（如计算机、宗教、体育等）。
特点：主题明确，适合验证聚类算法对粗粒度类别的区分能力。
官方划分：
- 训练集：11,314篇（按日期早于测试集的文档划分）。
- 测试集：7,532篇。
类别分布：每个类别在训练集和测试集中均匀分布（约600-700篇/类）。
注意事项：实际聚类任务中通常合并全部数据（无监督学习），但可用测试集标签评估聚类效果。

获取：

通过：

scikit-learn

直接加载：

from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

2. Reuters-21578

内容：路透社新闻文档，包含90个类别（如金融、贸易、农业）。
特点：部分文档有多个标签，适合多类别聚类或层次聚类。
获取：通过 Kaggle 或 nltk.corpus.reuters 下载。
常用划分（ModApte Split）：
- 训练集：7,769篇（仅包含至少被标注1个类别的文档）。
- 测试集：3,019篇。
类别分布：高度不均衡（如 earn 类占40%+），需注意长尾问题。

获取代码

from nltk.corpus import reuters
train_docs = reuters.fileids(categories=['earn', 'acq', 'money-fx'])[:7769]  # 示例筛选

3. Amazon Product Reviews

内容：亚马逊商品评论，包含评分（1-5星）和产品类别（如电子产品、图书）。
特点：适合情感聚类（如正向/负向评论）或跨品类聚类。
获取：Amazon Review Data (2018)（需遵守使用协议）。
无官方划分：需自定义（如按时间划分或随机采样）。
建议比例：
- 训练集：80%（用于生成嵌入或特征）。
- 测试集：20%（评估聚类泛化性，需保留真实标签）。
领域适应：可跨品类划分（如训练集用电子产品，测试集用图书评论）。

二、领域特定聚类数据集

1. BBC News

内容：2,225篇BBC新闻文章，分为5类（商业、娱乐、政治、体育、科技）。
特点：短文本，类别平衡，适合小规模聚类实验。
获取：Kaggle链接。
官方划分：无固定划分，需随机分割。
典型用法：
- 训练集：1,600篇（80%）。
- 测试集：400篇（20%）。
类别平衡：每类约320-400篇（训练集），80-100篇（测试集）。

2. ArXiv论文摘要（CS子集）

内容：计算机科学领域的论文摘要，可自定义类别（如AI、数据库、算法）。
特点：学术长文本，适合主题建模与细粒度聚类。
获取：通过 arXiv API 爬取或使用预处理的 Hugging Face Datasets。
时间划分：按论文发表年份划分（如2010-2018为训练集，2019-2020为测试集）。
动态主题挑战：测试集可能包含新术语（如“GPT-4”），考验聚类模型泛化能力。

3. COVID-19开放研究数据集

内容：医学论文摘要，涉及病毒传播、疫苗研发等主题。
特点：专业术语多，适合领域自适应聚类。
获取：CORD-19 Dataset。
划分建议：按研究主题（如训练集含“病毒传播”，测试集含“疫苗副作用”）。
数据量：约400,000篇（持续更新），需过滤低质量文本。

三、多语言聚类数据集

1. Multi-Domain Sentiment Dataset (MDSD)

内容：商品评论（英文、德文、法文），包含4个领域（图书、DVD、电子产品、厨房用品）。
特点：跨语言与跨领域聚类任务。
获取：MDSD官网。
官方划分：按语言和领域独立划分（如英文电子产品评论为训练集，法文图书评论为测试集）。
跨语言聚类：需对齐不同语言的嵌入空间（如用LASER或mBERT）。

2. THUCNews（中文）

内容：新浪新闻分类数据，14个类别（财经、房产、教育等），共74万篇。
特点：大规模中文长文本，需自行划分训练/测试集。
获取：THUCTC工具包或 Hugging Face。
官方划分：
- 训练集：65万篇。
- 测试集：9万篇。
类别分布：均匀分布（每类约4.6万篇训练，6,000篇测试）。

四、聚类评估数据集（带真实标签）

数据集名称	文本类型	类别数	用途
Iris	结构化特征	3	基础聚类算法验证
MNIST	手写数字图像	10	跨模态聚类（需文本化）
AG News	新闻标题	4	短文本聚类效果对比
StackOverflow	技术问答	20	长文本与标签稀疏性测试

第三章无监督训练数据集：

1. Wikipedia 语料库（训练）

内容：多语言维基百科全文（含元数据如页面标题、链接等）。
规模：英文版约 40 亿词，中文版约 10 亿词（2023 年数据）。
用途：BERT、GPT 等模型的预训练基础语料。
训练/测试分布：
- 无官方划分，通常按时间切分（如用 2020 年前数据训练，2021 年后数据测试）。
- 部分研究采用随机抽取 1-5% 作为验证集（如 BERT 训练时）。
获取方式：通过 Wikimedia Dumps 按需下载特定语言版本。

2. Common Crawl

内容：互联网网页抓取的原始文本（含 HTML 标签，需清洗）。
规模：每月新增约 200TB 原始数据，覆盖 100+ 种语言。
用途：训练超大规模模型（如 GPT-3、T5）。
训练/测试分布：
- 无官方划分，通常按时间或域名划分（如 90% 训练 + 10% 测试）。
- 需注意数据去重（重复网页可能影响模型性能）。
语言分布示例：

语言占比
英语 46%
俄语 6%
中文 4%
其他 44%
获取方式：通过 Common Crawl 官网下载 WARC 文件。

语言	占比
英语	46%
俄语	6%
中文	4%
其他	44%

3. BookCorpus

内容：未出版的英文小说书籍（涵盖多种体裁）。
规模：约 11,000 本书，总词数 9.8 亿。
用途：长文本生成、语言模型微调。
训练/测试分布：
- 公开版本（如 Hugging Face 的 bookcorpus）：默认无划分，建议按 9:1 随机分割。
- 原始版本因版权限制需申请访问权限。
示例使用：BERT 的预训练数据中，BookCorpus 占 25%（与 Wikipedia 组合使用）。
替代版本：
- Books3（包含 19 万本书，需通过 The Eye 下载）。
- Project Gutenberg 子集（公开版权书籍，可自由使用）。

4. Project Gutenberg

内容：版权过期的经典文学作品（含小说、诗歌、非虚构等）。
规模：60,000+ 本电子书（以英文为主，含部分其他语言）。
用途：文学风格分析、低资源语言模型训练。
训练/测试分布：
- 无官方划分，建议按作者或年代划分（如 19 世纪作品训练，20 世纪作品测试）。
- 可过滤特定领域（如科幻 vs 现实主义小说）。
获取方式：直接通过 Project Gutenberg 批量下载。

5. OpenWebText（补充推荐）

内容：Reddit 高赞帖子的外链网页文本（清洗后）。
规模：约 800 万文档，总词数 400 亿。
用途：GPT-2 等模型的训练数据。
训练/测试分布：
- 官方提供预分割版本，默认按 95% 训练 + 5% 测试。
特点：包含网络用语、非正式文本，贴近实际应用场景。

第四章情感分析任务：

1.MR (Movie Reviews)（重要）

任务：二分类（正/负面电影评论）
数据量：10,662条句子
分布：无固定划分，通常使用交叉验证或80%/20%随机分割。

2.CR (Customer Reviews)（重要）

任务：二分类（商品评论情感）
数据量：约4,000条评论
分布：无官方划分，常用交叉验证或随机分割。

3.SST (Stanford Sentiment Treebank)（重要）

任务：二分类（SST-2）或五分类（SST-5）
数据量：
- SST-2：67,349条（训练集 6,920，验证集 872，测试集 1,821）
- SST-5：11,855条（训练集 8,544，验证集 1,101，测试集 2,210）
分布：官方固定划分。

4.Tweet (Twitter Sentiment Analysis)

任务：三分类（正/负/中性）
数据量：约20,000条推文（如SemEval-2017）
分布：官方划分（训练集 10k，测试集 10k）。

第五章文本立场/主观性分类（Subjectivity/Stance）

1.SUBJ (Subjectivity Dataset)（重要）

任务：二分类（主观/客观句子）
数据量：10,000条句子
分布：通常按5k训练 + 5k测试划分。

2.MPQA (MPQA Opinion Corpus)（重要）

任务：二分类（观点极性）
数据量：10,606条句子
分布：无固定划分，常用交叉验证。

第六章问答与语义相似度（QA & Semantic Similarity）

1.TREC (TREC Question Classification)（重要）

任务：6分类或50分类（问题类型）
数据量：5,952条训练 + 500条测试
分布：官方固定划分。

2.MRPC (Microsoft Research Paraphrase Corpus)（重要）

任务：二分类（句子对是否语义等价）
数据量：5,801对（训练集） + 1,500对（测试集）
分布：官方划分，标签不均衡（约67%负样本）。

3.SS (Semantic Similarity)

任务：二分类（句子对是否语义相似）
数据量：依赖子集（如STS-B约8,628对）
分布：通常按训练/验证/测试划分。

第七章新闻与长文本分类（News & Long-Text）

1.AG (AG News)

任务：四分类（新闻类别）
数据量：127,600条（训练集 120k，测试集 7.6k）
分布：官方均衡划分（每类训练集30k，测试集1.9k）。

2.G-T (Gutenberg-Times Corpus)

任务：历史新闻分类
数据量：约10,000篇文档
分布：需按时间或主题自定义划分。

3.G-TS (Gutenberg-Times with Timestamps)

任务：时间敏感分类
数据量：同G-T，附带时间戳
分布：按时间划分（如1900年前后）。

第八章领域特定分类（Domain-Specific）

1.Bio (BioText)

任务：二分类（生物医学文献关联性）
数据量：约20,000条
分布：通常按80%/20%分割。

2.Go-S (Gene Ontology Sentences)

任务：多标签分类（基因功能）
数据量：约50,000条
分布：按文献时间自定义划分。

3.SO (Stack Overflow)

任务：多标签分类（代码问题标签）
数据量：约10,000,000条（常用子集50k）
分布：按时间或随机划分。

4.TC (Text Classification, 如新闻分类)

任务：多分类（如新闻类别）
分布：若为AG News，官方均衡划分（训练集 120k，测试集 7.6k）。

5.BS (可能为Bias Summarization或Book Summaries)

任务：需进一步明确（假设为摘要偏见检测）
分布：依赖具体数据集，通常按70%/30%划分。

第九章句法与语法分析

1.TreeD (Treebank Data, 如Penn Treebank)

任务：句法分析（依存/成分树解析）
分布：通常按章节划分（如PTB：训练集 2-21，验证集 22，测试集 23）。

2.Tense

任务：动词时态分类（过去/现在/未来等）
分布：需自定义划分（常见按80%/20%分割）。

3.CoordI (Coordination Identification)

任务：并列结构识别
分布：依赖具体语料库（如英文树库需自定义划分）。

第十章词汇与语义任务

1.WC (可能为Word Classification或Word Context)

任务：词汇分类（如词性标注）
分布：若为词性标注，常用树库划分（如PTB）。

2.SubjN/ObjN (Subjective/Object Nouns)

任务：主观性名词 vs. 客观性名词分类
分布：需自定义划分（类似SUBJ数据集）。

3.SOMO (可能为Semantic Orientation)

任务：词汇语义极性（正/负）
分布：通常按词典或语料库自定义划分。

第十一章、自然语言推理（NLI）

1. SNLI (Stanford NLI)（重点）

任务: 三分类（蕴含/矛盾/中立）
数据分布:
- 训练集: 549,367对
- 验证集: 9,842对
- 测试集: 9,824对
特点:
- 所有句子对基于图像描述生成，训练集与测试集领域一致。
- 测试集包含部分对抗样本（如词汇重叠但逻辑矛盾）。

2. MultiNLI

任务: 多领域三分类
数据分布:
- 训练集: 392,702对（覆盖10种文本类型，如小说、政府报告）
- 验证集: 9,815对（匹配领域） + 9,832对（不匹配领域）
- 测试集: 分两部分：
  - 匹配领域（20,000对，与训练集同领域）
  - 不匹配领域（20,000对，新领域如旅游指南）
特点:
- 测试集的“不匹配领域”用于评估模型跨领域泛化能力。