NLP-数据集介绍(并不全,文本类介绍)

目录

  • 第一章 STS(语义文本相似度) (重点)
    • 一、SemEval STS 年度任务(2012-2017)
      • 1. SemEval-2012 STS
      • 2. SemEval-2013 STS
      • 3. SemEval-2014 STS
      • 4. SemEval-2015 STS
      • 5. SemEval-2016 STS
      • 6. SemEval-2017 STS
    • 二、STS Benchmark(2017)
    • 三、跨语言 STS(XSTS)
      • 1. XSTS-2016
      • 2. XLM-TSV
    • 四、领域专用 STS 数据集
      • 1. 医疗 STS(MedSTS)
      • 2. 法律 STS(Legal-STS)
    • 五、其他衍生数据集
      • 1. SICK 数据集
      • 2. MRPC(Microsoft Research Paraphrase Corpus)
  • 第二章 文本聚类任务:
    • 一、通用文本聚类数据集
      • 1. 20 Newsgroups
      • 2. Reuters-21578
      • 3. Amazon Product Reviews
    • 二、领域特定聚类数据集
      • 1. BBC News
      • 2. ArXiv论文摘要(CS子集)
      • 3. COVID-19开放研究数据集
    • 三、多语言聚类数据集
      • 1. Multi-Domain Sentiment Dataset (MDSD)
      • 2. THUCNews(中文)
    • 四、聚类评估数据集(带真实标签)
  • 第三章 无监督训练数据集:
      • 1. Wikipedia 语料库(训练)
      • 2. Common Crawl
      • 3. BookCorpus
      • 4. Project Gutenberg
      • 5. OpenWebText(补充推荐)
  • 第四章 情感分析任务:
      • 1.MR (Movie Reviews)(重要)
      • 2.CR (Customer Reviews)(重要)
      • 3.SST (Stanford Sentiment Treebank)(重要)
      • 4.Tweet (Twitter Sentiment Analysis)
  • 第五章 文本立场/主观性分类(Subjectivity/Stance)
      • 1.SUBJ (Subjectivity Dataset)(重要)
      • 2.MPQA (MPQA Opinion Corpus)(重要)
  • 第六章 问答与语义相似度(QA & Semantic Similarity)
      • 1.TREC (TREC Question Classification)(重要)
      • 2.MRPC (Microsoft Research Paraphrase Corpus)(重要)
      • 3.SS (Semantic Similarity)
  • 第七章 新闻与长文本分类(News & Long-Text)
      • 1.AG (AG News)
      • 2.G-T (Gutenberg-Times Corpus)
      • 3.G-TS (Gutenberg-Times with Timestamps)
  • 第八章 领域特定分类(Domain-Specific)
      • 1.Bio (BioText)
      • 2.Go-S (Gene Ontology Sentences)
      • 3.SO (Stack Overflow)
      • 4.TC (Text Classification, 如新闻分类)
      • 5.BS (可能为Bias Summarization或Book Summaries)
  • 第九章 句法与语法分析
      • 1.TreeD (Treebank Data, 如Penn Treebank)
      • 2.Tense
      • 3.CoordI (Coordination Identification)
  • 第十章 词汇与语义任务
      • 1.WC (可能为Word Classification或Word Context)
      • 2.SubjN/ObjN (Subjective/Object Nouns)
      • 3.SOMO (可能为Semantic Orientation)
  • 第十一章、自然语言推理(NLI)
      • 1. SNLI (Stanford NLI)(重点)
      • 2. MultiNLI
      • 3. XNLI

第一章 STS(语义文本相似度) (重点)

是自然语言处理中的核心任务,目标是衡量两个文本片段(句子或短语)在语义上的相似程度,输出范围为 0(完全不相关)到 5(完全等价)。

一、SemEval STS 年度任务(2012-2017)

每年任务通常包含 训练集(Train) 和 测试集(Test),部分年份提供 开发集(Dev)。以下是具体划分:

1. SemEval-2012 STS

  • 训练集:无官方训练集(依赖外部数据或迁移学习)。
  • 测试集:约 3,000 对句子(英语 + 西班牙语)。
  • 领域:新闻标题、机器翻译输出。
  • 语言:英语、西班牙语
  • 特点:首次引入跨语言相似度任务。

2. SemEval-2013 STS

  • 训练集:约 1,500 对句子(英语 + 西班牙语)。
  • 测试集:约 2,000 对句子(新增阿拉伯语)。
  • 领域:新闻、论坛讨论。
  • 语言:英语、西班牙语、阿拉伯语
  • 创新:增加阿拉伯语支持。

3. SemEval-2014 STS

  • 训练集:约 4,500 对句子(英语 + 西班牙语)。
  • 测试集:约 3,750 对句子(含图像描述对)。
  • 领域:新闻标题、Flickr30K 图像描述。
  • 语言:英语、西班牙语
  • 亮点:引入图像描述对(文本-图像跨模态关联)。

4. SemEval-2015 STS

  • 训练集:约 8,000 对句子(英语 + 西班牙语)。
  • 测试集:约 1,000 对句子。
  • 领域:新闻、论坛、问答对。
  • 语言:英语、西班牙语
  • 数据量:约 9,000 对句子(含训练集和测试集)。

5. SemEval-2016 STS

  • 训练集:约 6,000 对句子(英语 + 阿拉伯语)。
  • 测试集:约 1,200 对句子。
  • 领域:新闻标题、学术文本。
  • 语言:英语、阿拉伯语
  • 挑战:处理复杂句式(如否定、比喻)。

6. SemEval-2017 STS

  • 训练集:约 5,000 对句子(英语 + 西班牙语 + 阿拉伯语)。
  • 测试集:约 1,500 对句子。
  • 语言:英语、西班牙语、阿拉伯语
  • 领域:新闻、社交媒体、问答对
  • 遗产:成为后续研究的基准参考。

二、STS Benchmark(2017)

  • 训练集:5,499 对句子(来自 SemEval 2012-2016 的混合数据)。
  • 开发集:500 对句子(用于调参)。
  • 测试集:1,379 对句子(来自 SemEval 2017)。
  • 评分范围:0-5 分(连续值)。
  • 用途:BERT、RoBERTa 等模型的通用评估基准。
  • 定位:标准化评估集(非年度任务)
  • 数据量:5,749 对句子(训练集 5,499 / 开发集 500 / 测试集 1,379)
  • 领域:新闻标题、论坛讨论、图像描述、问答对

三、跨语言 STS(XSTS)

1. XSTS-2016

  • 训练集:3,000 对句子(英语-西班牙语对齐)。
  • 测试集:1,000 对句子。
  • 评分:人工标注 0-5 分。
  • 任务目标:跨语言语义相似度(如英语-西班牙语)
  • 语言:英语-西班牙语对齐句子对。
  • 应用:评估跨语言嵌入模型(如 LASER、mBERT)。

2. XLM-TSV

  • 训练集:50,000 对句子(多语言混合)。
  • 测试集:10,000 对句子(覆盖 15 种语言)。
  • 特点:自动生成 + 人工修正。
  • 语言:多语言扩展(英语、德语、法语等)

四、领域专用 STS 数据集

1. 医疗 STS(MedSTS)

  • 训练集:800 对临床文本。
  • 测试集:200 对句子。
  • 评分:医生标注 0-5 分。
  • 领域:临床文本
  • 数据量:约 1,000 对句子

2. 法律 STS(Legal-STS)

  • 训练集:600 对法律条款。
  • 测试集:200 对句子。
  • 挑战:长文本(平均 50 词/句)。
  • 领域:法律条款、合同
  • 数据量:约 800 对句子
  • 挑战:专业术语和长文本匹配。

五、其他衍生数据集

1. SICK 数据集

  • 训练集:4,500 对句子。
  • 开发集:500 对句子。
  • 测试集:4,927 对句子。
  • 标签:语义关联度(1-5 分) + 关系标签(蕴含/矛盾/中立)。
  • 领域:常识推理
  • 数据量:10,000 对句子
  • 特点:包含语义关联、矛盾、中立标签。

2. MRPC(Microsoft Research Paraphrase Corpus)

  • 训练集:4,076 对句子。
  • 测试集:1,725 对句子。
  • 标签:二分类(1=复述,0=非复述)。
  • 任务:二分类(是否为复述)
  • 数据量:5,800 对句子
  • 用途:复述检测基准(STS 的简化版)。

第二章 文本聚类任务:

一、通用文本聚类数据集

1. 20 Newsgroups

  • 内容:约20,000篇新闻组文档,分为20个主题(如计算机、宗教、体育等)。

  • 特点:主题明确,适合验证聚类算法对粗粒度类别的区分能力。

  • 官方划分

    • 训练集:11,314篇(按日期早于测试集的文档划分)。
    • 测试集:7,532篇。
  • 类别分布:每个类别在训练集和测试集中均匀分布(约600-700篇/类)。

  • 注意事项:实际聚类任务中通常合并全部数据(无监督学习),但可用测试集标签评估聚类效果。

  • 获取

    通过:

    scikit-learn
    

    直接加载:

    from sklearn.datasets import fetch_20newsgroups
    data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
    

2. Reuters-21578

  • 内容:路透社新闻文档,包含90个类别(如金融、贸易、农业)。

  • 特点:部分文档有多个标签,适合多类别聚类或层次聚类。

  • 获取:通过 Kaggle 或 nltk.corpus.reuters 下载。

  • 常用划分(ModApte Split)

    • 训练集:7,769篇(仅包含至少被标注1个类别的文档)。
    • 测试集:3,019篇。
  • 类别分布:高度不均衡(如 earn 类占40%+),需注意长尾问题。

  • 获取代码

    from nltk.corpus import reuters
    train_docs = reuters.fileids(categories=['earn', 'acq', 'money-fx'])[:7769]  # 示例筛选
    

3. Amazon Product Reviews

  • 内容:亚马逊商品评论,包含评分(1-5星)和产品类别(如电子产品、图书)。
  • 特点:适合情感聚类(如正向/负向评论)或跨品类聚类。
  • 获取:Amazon Review Data (2018)(需遵守使用协议)。
  • 无官方划分:需自定义(如按时间划分或随机采样)。
  • 建议比例
    • 训练集:80%(用于生成嵌入或特征)。
    • 测试集:20%(评估聚类泛化性,需保留真实标签)。
  • 领域适应:可跨品类划分(如训练集用电子产品,测试集用图书评论)。

二、领域特定聚类数据集

1. BBC News

  • 内容:2,225篇BBC新闻文章,分为5类(商业、娱乐、政治、体育、科技)。
  • 特点:短文本,类别平衡,适合小规模聚类实验。
  • 获取:Kaggle链接。
  • 官方划分:无固定划分,需随机分割。
  • 典型用法
    • 训练集:1,600篇(80%)。
    • 测试集:400篇(20%)。
  • 类别平衡:每类约320-400篇(训练集),80-100篇(测试集)。

2. ArXiv论文摘要(CS子集)

  • 内容:计算机科学领域的论文摘要,可自定义类别(如AI、数据库、算法)。
  • 特点:学术长文本,适合主题建模与细粒度聚类。
  • 获取:通过 arXiv API 爬取或使用预处理的 Hugging Face Datasets。
  • 时间划分:按论文发表年份划分(如2010-2018为训练集,2019-2020为测试集)。
  • 动态主题挑战:测试集可能包含新术语(如“GPT-4”),考验聚类模型泛化能力。

3. COVID-19开放研究数据集

  • 内容:医学论文摘要,涉及病毒传播、疫苗研发等主题。
  • 特点:专业术语多,适合领域自适应聚类。
  • 获取:CORD-19 Dataset。
  • 划分建议:按研究主题(如训练集含“病毒传播”,测试集含“疫苗副作用”)。
  • 数据量:约400,000篇(持续更新),需过滤低质量文本。

三、多语言聚类数据集

1. Multi-Domain Sentiment Dataset (MDSD)

  • 内容:商品评论(英文、德文、法文),包含4个领域(图书、DVD、电子产品、厨房用品)。
  • 特点:跨语言与跨领域聚类任务。
  • 获取:MDSD官网。
  • 官方划分:按语言和领域独立划分(如英文电子产品评论为训练集,法文图书评论为测试集)。
  • 跨语言聚类:需对齐不同语言的嵌入空间(如用LASER或mBERT)。

2. THUCNews(中文)

  • 内容:新浪新闻分类数据,14个类别(财经、房产、教育等),共74万篇。
  • 特点:大规模中文长文本,需自行划分训练/测试集。
  • 获取:THUCTC工具包 或 Hugging Face。
  • 官方划分
    • 训练集:65万篇。
    • 测试集:9万篇。
  • 类别分布:均匀分布(每类约4.6万篇训练,6,000篇测试)。

四、聚类评估数据集(带真实标签)

数据集名称文本类型类别数用途
Iris结构化特征3基础聚类算法验证
MNIST手写数字图像10跨模态聚类(需文本化)
AG News新闻标题4短文本聚类效果对比
StackOverflow技术问答20长文本与标签稀疏性测试

第三章 无监督训练数据集:

1. Wikipedia 语料库(训练)

  • 内容:多语言维基百科全文(含元数据如页面标题、链接等)。
  • 规模:英文版约 40 亿词,中文版约 10 亿词(2023 年数据)。
  • 用途:BERT、GPT 等模型的预训练基础语料。
  • 训练/测试分布
    • 无官方划分,通常按时间切分(如用 2020 年前数据训练,2021 年后数据测试)。
    • 部分研究采用随机抽取 1-5% 作为验证集(如 BERT 训练时)。
  • 获取方式:通过 Wikimedia Dumps 按需下载特定语言版本。

2. Common Crawl

  • 内容:互联网网页抓取的原始文本(含 HTML 标签,需清洗)。

  • 规模:每月新增约 200TB 原始数据,覆盖 100+ 种语言。

  • 用途:训练超大规模模型(如 GPT-3、T5)。

  • 训练/测试分布

    • 无官方划分,通常按时间或域名划分(如 90% 训练 + 10% 测试)。
    • 需注意数据去重(重复网页可能影响模型性能)。
  • 语言分布示例

    语言占比
    英语46%
    俄语6%
    中文4%
    其他44%
  • 获取方式:通过 Common Crawl 官网 下载 WARC 文件。


3. BookCorpus

  • 内容:未出版的英文小说书籍(涵盖多种体裁)。
  • 规模:约 11,000 本书,总词数 9.8 亿。
  • 用途:长文本生成、语言模型微调。
  • 训练/测试分布
    • 公开版本(如 Hugging Face 的 bookcorpus:默认无划分,建议按 9:1 随机分割。
    • 原始版本因版权限制需申请访问权限。
  • 示例使用:BERT 的预训练数据中,BookCorpus 占 25%(与 Wikipedia 组合使用)。
  • 替代版本
    • Books3(包含 19 万本书,需通过 The Eye 下载)。
    • Project Gutenberg 子集(公开版权书籍,可自由使用)。

4. Project Gutenberg

  • 内容:版权过期的经典文学作品(含小说、诗歌、非虚构等)。
  • 规模:60,000+ 本电子书(以英文为主,含部分其他语言)。
  • 用途:文学风格分析、低资源语言模型训练。
  • 训练/测试分布
    • 无官方划分,建议按作者或年代划分(如 19 世纪作品训练,20 世纪作品测试)。
    • 可过滤特定领域(如科幻 vs 现实主义小说)。
  • 获取方式:直接通过 Project Gutenberg 批量下载。

5. OpenWebText(补充推荐)

  • 内容:Reddit 高赞帖子的外链网页文本(清洗后)。
  • 规模:约 800 万文档,总词数 400 亿。
  • 用途:GPT-2 等模型的训练数据。
  • 训练/测试分布
    • 官方提供 预分割版本,默认按 95% 训练 + 5% 测试。
  • 特点:包含网络用语、非正式文本,贴近实际应用场景。

第四章 情感分析任务:

1.MR (Movie Reviews)(重要)

  • 任务:二分类(正/负面电影评论)
  • 数据量:10,662条句子
  • 分布:无固定划分,通常使用交叉验证或80%/20%随机分割。

2.CR (Customer Reviews)(重要)

  • 任务:二分类(商品评论情感)
  • 数据量:约4,000条评论
  • 分布:无官方划分,常用交叉验证或随机分割。

3.SST (Stanford Sentiment Treebank)(重要)

  • 任务:二分类(SST-2)或五分类(SST-5)
  • 数据量
    • SST-2:67,349条(训练集 6,920,验证集 872,测试集 1,821)
    • SST-5:11,855条(训练集 8,544,验证集 1,101,测试集 2,210)
  • 分布:官方固定划分。

4.Tweet (Twitter Sentiment Analysis)

  • 任务:三分类(正/负/中性)
  • 数据量:约20,000条推文(如SemEval-2017)
  • 分布:官方划分(训练集 10k,测试集 10k)。

第五章 文本立场/主观性分类(Subjectivity/Stance)

1.SUBJ (Subjectivity Dataset)(重要)

  • 任务:二分类(主观/客观句子)
  • 数据量:10,000条句子
  • 分布:通常按5k训练 + 5k测试划分。

2.MPQA (MPQA Opinion Corpus)(重要)

  • 任务:二分类(观点极性)
  • 数据量:10,606条句子
  • 分布:无固定划分,常用交叉验证。

第六章 问答与语义相似度(QA & Semantic Similarity)

1.TREC (TREC Question Classification)(重要)

  • 任务:6分类或50分类(问题类型)
  • 数据量:5,952条训练 + 500条测试
  • 分布:官方固定划分。

2.MRPC (Microsoft Research Paraphrase Corpus)(重要)

  • 任务:二分类(句子对是否语义等价)
  • 数据量:5,801对(训练集) + 1,500对(测试集)
  • 分布:官方划分,标签不均衡(约67%负样本)。

3.SS (Semantic Similarity)

  • 任务:二分类(句子对是否语义相似)
  • 数据量:依赖子集(如STS-B约8,628对)
  • 分布:通常按训练/验证/测试划分。

第七章 新闻与长文本分类(News & Long-Text)

1.AG (AG News)

  • 任务:四分类(新闻类别)
  • 数据量:127,600条(训练集 120k,测试集 7.6k)
  • 分布:官方均衡划分(每类训练集30k,测试集1.9k)。

2.G-T (Gutenberg-Times Corpus)

  • 任务:历史新闻分类
  • 数据量:约10,000篇文档
  • 分布:需按时间或主题自定义划分。

3.G-TS (Gutenberg-Times with Timestamps)

  • 任务:时间敏感分类
  • 数据量:同G-T,附带时间戳
  • 分布:按时间划分(如1900年前后)。

第八章 领域特定分类(Domain-Specific)

1.Bio (BioText)

  • 任务:二分类(生物医学文献关联性)
  • 数据量:约20,000条
  • 分布:通常按80%/20%分割。

2.Go-S (Gene Ontology Sentences)

  • 任务:多标签分类(基因功能)
  • 数据量:约50,000条
  • 分布:按文献时间自定义划分。

3.SO (Stack Overflow)

  • 任务:多标签分类(代码问题标签)
  • 数据量:约10,000,000条(常用子集50k)
  • 分布:按时间或随机划分。

4.TC (Text Classification, 如新闻分类)

  • 任务:多分类(如新闻类别)
  • 分布:若为AG News,官方均衡划分(训练集 120k,测试集 7.6k)。

5.BS (可能为Bias Summarization或Book Summaries)

  • 任务:需进一步明确(假设为摘要偏见检测)
  • 分布:依赖具体数据集,通常按70%/30%划分。

第九章 句法与语法分析

1.TreeD (Treebank Data, 如Penn Treebank)

  • 任务:句法分析(依存/成分树解析)
  • 分布:通常按章节划分(如PTB:训练集 2-21,验证集 22,测试集 23)。

2.Tense

  • 任务:动词时态分类(过去/现在/未来等)
  • 分布:需自定义划分(常见按80%/20%分割)。

3.CoordI (Coordination Identification)

  • 任务:并列结构识别
  • 分布:依赖具体语料库(如英文树库需自定义划分)。

第十章 词汇与语义任务

1.WC (可能为Word Classification或Word Context)

  • 任务:词汇分类(如词性标注)
  • 分布:若为词性标注,常用树库划分(如PTB)。

2.SubjN/ObjN (Subjective/Object Nouns)

  • 任务:主观性名词 vs. 客观性名词分类
  • 分布:需自定义划分(类似SUBJ数据集)。

3.SOMO (可能为Semantic Orientation)

  • 任务:词汇语义极性(正/负)
  • 分布:通常按词典或语料库自定义划分。

第十一章、自然语言推理(NLI)

1. SNLI (Stanford NLI)(重点)

  • 任务: 三分类(蕴含/矛盾/中立)
  • 数据分布:
    • 训练集: 549,367对
    • 验证集: 9,842对
    • 测试集: 9,824对
  • 特点:
    • 所有句子对基于图像描述生成,训练集与测试集领域一致。
    • 测试集包含部分对抗样本(如词汇重叠但逻辑矛盾)。

2. MultiNLI

  • 任务: 多领域三分类
  • 数据分布:
    • 训练集: 392,702对(覆盖10种文本类型,如小说、政府报告)
    • 验证集: 9,815对(匹配领域) + 9,832对(不匹配领域)
    • 测试集: 分两部分:
      • 匹配领域(20,000对,与训练集同领域)
      • 不匹配领域(20,000对,新领域如旅游指南)
  • 特点:
    • 测试集的“不匹配领域”用于评估模型跨领域泛化能力。

3. XNLI

  • 任务: 跨语言三分类(15种语言)
  • 数据分布:
    • 训练集: 392,702对(仅英语,翻译为其他语言)
    • 验证集: 2,490对/语言
    • 测试集: 5,010对/语言
  • 特点:
    • 测试集包含低资源语言(如斯瓦希里语、乌尔都语),评估跨语言迁移能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JS进阶 Day01

1.作用域和作用域链 let不可访问 var可访问,因为没有块作用域这一说法 2.JS垃圾回收机制以及算法 下图如上图同理 下图这个三个相互引用的,根部找不到,就进行清除。 3.JS闭包 4.变量和函数提升(了解) 5.函数剩余参数和展开运算符 还有种写法 …

详解Python当中的pip常用命令

想象一下,如果建造房屋时,每一块砖、每一根钢筋都需要你自己亲手烧制和打造,那会是怎样一番景象?软件开发也是如此。如果没有现成的、高质量的、可复用的代码库,开发者们就不得不重复“发明轮子”,效率低下…

LangChain面试内容整理-知识点10:文本嵌入模型(Embeddings)使用

文本嵌入(Embeddings)是将文字转换为向量(高维数值向量)的过程和结果。在LangChain中,Embeddings模块负责调用各种嵌入模型,将文本转化为向量表示,以便后续在向量空间执行相似度搜索、聚类等操作。这在实现语义搜索、RAG中非常关键,因为向量可以让计算机“理解”文本语…

To be or Not to be, That‘s a Token——论文阅读笔记——Beyond the 80/20 Rule和R2R

本周又在同一方向上刷到两篇文章,可以说,……同学们确实卷啊,要不卷卷开放场域的推理呢? 这两篇都在讲:如何巧妙的利用带有分支能力的token来提高推理性能或效率的。 第一篇叫 Beyond the 80/20 Rule: High-Entropy Mi…

bisheng系列(三)- 本地部署(后端 1.2版本)

一、导读 环境:Ubuntu 24.04、open Euler 23.03、Windows 11、WSL 2、Python 3.10 、bisheng 1.2.0 背景:需要bisheng二开商用,故而此处进行本地部署,便于后期调试开发 时间:20250612 说明:bisheng的1.2…

使用 PolarProxy+Proxifier 解密 TLS 流量

一、简介 在分析恶意样本或加密流量时,我们常常需要将 TLS 加密通信还原为明文。 本文介绍如何通过 PolarProxy 和Proxifier 解密 TLS 流量并保存为 pcap 文件,在 Wireshark 中进行进一步分析。 二、工具准备 ✅ PolarProxy(推荐 Windows x64 版本)✅ Proxifier(强制非浏…

[技术积累]成熟的前端和后端开发框架

1、后端 1.1、低代码开发框架 1.1.1、jeecg 官网:JEECG技术论坛 - 基于BPM的低代码开发平台 1.1.2、APIJSON github官网地址:https://github.com/APIJSON gitee官网地址:https://gitee.com/Tencent/APIJSON 官网地址:腾讯AP…

产品升级 | 新一代高性能数据采集平台BRICK2 X11,助力ADAS与自动驾驶开发

随着ADAS(高级驾驶辅助系统)和自动驾驶(AD)开发中对数据采集与处理的需求日益增长,高性能硬件的重要性愈发凸显。 为此,康谋正式发布了其BRICK系列的最新产品——BRICK2 X11,作为BRICK2的直接升…

蚂蚁集团法人变更:韩歆毅接任,公司治理的正常安排

企查查APP显示,6月11日,蚂蚁科技集团股份有限公司发生工商变更,井贤栋卸任法定代表人,由韩歆毅接任。同时,韩歆毅由董事、总经理变更为执行公司事务的董事、总经理。目前,井贤栋仍担任该公司董事长职务。 接…

2025虚幻游戏逆向工程解包尝试

2025虚幻游戏逆向工程解包 前言 在2025游戏模型提取攻略写了,但是想要找的时候又忘了在哪篇文章中写的,所以干脆专门写一下。中间有许多坑。 一坑接一坑。 先说结论:用Umodel(UV Viewer)查看和导出模型。FModel虽然…

Qt学习及使用_第1部分_认识Qt---Qt开发基本流程

前言 学以致用,通过QT框架的学习,一边实践,一边探索编程的方方面面. 参考书:<Qt 6 C开发指南>(以下称"本书") 标识说明:概念用粗体倾斜.重点内容用(加粗黑体)---重点内容(红字)---重点内容(加粗红字), 本书原话内容用深蓝色标识,比较重要的内容用加粗倾…

大模型的开发应用(十):对话风格微调项目(上):数据工程与模型选型

数据工程 1 项目介绍2 数据工程2.1 申请 API Key 并测试2.2 文本嵌入模型2.3 生成训练集2.3.1 制作风格模板2.3.2 调用大模型获取数据2.3.3 对大模型生成的数据进行质量过滤2.3.4 程序入口 2.4 数据转换 3 模型选型3.1 候选模型与评估数据集3.2 模型评估 附录&#xff08;对比不…

Jmeter压测手册:脚本配置、服务器环境搭建与运行

序 本文记录了我在新公司的首次压测遇到的一些问题以及解决方案。公司服务部署在国外&#xff0c;网络延迟导致的压不上去&#xff0c;需要本地调试脚本&#xff0c;然后用国外服务器压测的过程。同时记录了过程中遇到的一些问题&#xff0c;特别是Jmeter本身占用CPU资源&#…

立定跳远--二分枚举答案+cehck

P10909 [蓝桥杯 2024 国 B] 立定跳远 - 洛谷 #include<bits/stdc.h> using namespace std; #define N 100011 typedef long long ll; typedef pair<int,int> pii; int n,m; int a[N]; int an; bool check(int l) {int pos0;int c1;int wm;for(int i1;i<n;i){if…

蓝桥杯20112 不同的总分值

问题描述 在今年蓝桥杯的决赛中&#xff0c;一共有 10 道题目&#xff0c;每道题目的分数依次为 5 分&#xff0c;5 分&#xff0c;10 分&#xff0c;10 分&#xff0c;15 分&#xff0c;15 分&#xff0c;20 分&#xff0c;20 分&#xff0c;25 分&#xff0c;25 分。 假设某…

[论文阅读] 系统架构 | 零售 IT 中的微服务与实时处理:开源工具链与部署策略综述

零售IT中的微服务与实时处理&#xff1a;开源工具链与部署策略综述 论文信息 Microservices and Real-Time Processing in Retail IT: A Review of Open-Source Toolchains and Deployment Strategies Aaditaa Vashisht (Department of Information Science and Engineering, …

【面板数据】A股上市公司注册地所在地数据集(1991-2023年)

数据简介&#xff1a;上市公司注册地所在地数据指企业在工商行政管理部门登记注册的法定住所信息&#xff0c;涵盖省、市、区三级行政区划及详细地址。该数据是公司法律身份的核心标识&#xff0c;直接影响税务管辖、诉讼归属、政策适用及市场准入等关键环节。更是连接企业行为…

21、Create React App的使用

Create React App 是官方支持的创建单页 React 应用程序的方法。提供了一个现代的构建设置&#xff0c;无需配置。它虽然只是一个包&#xff0c;但不建议全局安装。如果本地安装过可先卸载&#xff0c;这样能保证每次创建项目时使用最新版本的功能。 开始使用 可以使用npx&…

CSS盒子 flex弹性布局

使用flex弹性布局页面效果图&#xff08;源代码在文章末尾&#xff09;&#xff1a; 目录 flex弹性布局 一、基本容器 二、设置主轴方向 三、设置主轴对齐方式 四、设置交叉轴上的对齐方式 flex弹性布局 一、基本容器 Flexbox 是 CSS3 引入的一种一维布局模型&#xff0…

数据结构与算法-线性表-线性表的应用

1 线性表 1.5 线性表的应用 1.5.1 线性表的合并 【算法步骤】 分别获取 LA 表长 m 和 LB 表长 n 。从 LB 中第 1 个数据元素开始&#xff0c;循环 n 次执行以下操作&#xff1a; 从 LB 中查找第 i 个数据元素赋给 e &#xff1b;在 LA 中查找元素 e &#xff0c;如果不存在&…