英文摘要给成中文摘要模型

你现在使用的 UNIMO 项目(PaddlePaddle/Research/NLP/UNIMO),默认是做英文摘要任务,如你在 README 中看到的数据集是 CNN/DailyMail,它是一个 英文摘要数据集。不过,这个项目的架构完全支持中文,只是你需要替换数据集和 tokenizer


✅ 回答你的问题

🔹Q1:这个项目可以进行中文文本摘要吗?

可以,但你需要 改成中文数据集(如 LCSTS)+ 使用中文 tokenizer + 加载中文预训练模型 unimo-text-1.0-summary


🧭 正确使用 UNIMO 做中文摘要的操作指南

下面是你需要完成的几步改造:


✅ 1️⃣ 数据集替换(英文 → 中文)

原项目你要替换为
CNN/DailyMail(英文)LCSTS(中文新闻摘要)或你自有数据集

推荐数据集:LCSTS

  • 中文短文本摘要标准数据集(来源于新浪微博)
  • 下载地址(含 json 格式):https://github.com/brightmart/nlp_chinese_corpus/tree/master/LCSTS

你也可以准备如下格式的自有数据:

{"src": "原始文本", "tgt": "摘要内容"}

✅ 2️⃣ 修改数据加载逻辑(reader/cnndm.py

  • 改为读取你的 LCSTS 或自定义数据集
  • 中文不需要 tokenization(BPE 等),使用 jiebaspm(sentencepiece)分词器
  • 示例(简化):
def read_lcsts(path):with open(path, "r", encoding="utf8") as f:for line in f:data = json.loads(line.strip())yield {"src": data["src"], "tgt": data["tgt"]}

✅ 3️⃣ 更换预训练模型(英文 → 中文 UNIMO)

项目原本加载的是 unimo-text-1.0(英文),你要换成中文版本:

from paddlenlp.transformers import UNIMOTokenizer, UNIMOForConditionalGenerationtokenizer = UNIMOTokenizer.from_pretrained("unimo-text-1.0-summary")
model = UNIMOForConditionalGeneration.from_pretrained("unimo-text-1.0-summary")

然后模型就可以用于生成中文摘要。


✅ 4️⃣ 修改训练脚本和配置文件

路径:script/seq2seq/cnndm/run.sh

你需要将 --dataset cnndm 替换为你自己的 dataset 名(假设叫 lcs),并创建对应数据读取文件如 reader/lcs.py

python -u ./run_seq2seq.py \--dataset lcs \--model_name_or_path unimo-text-1.0-summary \...

✅ 5️⃣ 评估脚本可参考 rouge_chinese 实现

由于原 eval_script 是英文版的 ROUGE,你可以使用中文支持的 Rouge 脚本:

pip install rouge-chinese

或使用 Huggingface 的 evaluate 模块:

from rouge_chinese import Rouge
rouge = Rouge()
scores = rouge.get_scores(hypothesis, reference)

✅ 示例结构改造

UNIMO/
├── reader/
│   └── lcs.py             # 你新建的中文 reader
├── script/
│   └── seq2seq/
│       └── lcs/
│           └── run.sh     # 训练脚本
├── data/
│   └── lcs/
│       ├── train.jsonl
│       ├── dev.jsonl
│       └── test.jsonl

✅ 总结:你要做的 3 件关键事

  1. 替换数据集:从 CNN → 中文 LCSTS
  2. 替换模型:从英文模型 → unimo-text-1.0-summary
  3. 训练脚本改造:重写 reader.py 和 run.sh,对应你自己的数据格式

✅ Bonus(如果你时间紧)

如果你希望我直接帮你生成一个:

  • ✅ 基于 UNIMO 的中文摘要项目结构(适配 LCSTS)
  • ✅ 完整中文训练脚本(run.sh)
  • ✅ 中文 ROUGE 评估脚本

直接告诉我:“请生成 UNIMO 中文摘要项目模板”,我可以全部打包好给你。你只需跑 bash run.sh 就能启动中文训练。是否继续?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86150.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86150.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端面试专栏-主流框架:13.vue3组件通信与生命周期

🔥 欢迎来到前端面试通关指南专栏!从js精讲到框架到实战,渐进系统化学习,坚持解锁新技能,祝你轻松拿下心仪offer。 前端面试通关指南专栏主页 前端面试专栏规划详情 Vue3组件通信与生命周期深度解析 在Vue3的开发体系…

自动化交易优化网格策略

一、动态参数调整 1. 网格间距优化 - 波动率自适应:使用平均真实波幅(ATR)指标动态调整间距。例如,当ATR值上升20%时,将间距从原定的1%扩大至1.5%;ATR下降时则缩小间距至0.8%。可通过Python的TA-Lib库实时计…

测试平台ui自动化demo说明

1. 要启动celery worker windows 开发时,用第二行 。(试过,可以),第一行的没试过。 celery -A myproject worker --loglevelinfo # windows电脑用下面的,并且settings中还要加那个solo celery -A your_p…

五大主要Token类型之字符标记Token

如大家所了解的,在数字化时代,我们每天都会与Token(令牌)打交道——无论是在线支付、登录社交媒体,还是调用API接口,都离不开这一关键技术。 今天我们主要来学习:字符标记Token 在自然语言处理…

可理解性输入:洗澡习惯

一、开场与淋浴准备 Today we’re going to learn bathroom English. Let’s get started. So the first thing we want to do. Make sure we have our towel and we’ll hang it on the towel rack before we have a shower. Because if we have a shower and then forget ou…

GO Echo框架面试题及参考答案

目录 Echo 框架的核心结构是什么?Echo 和 Context 分别扮演什么角色? 如何创建一个 Echo 实例?简述常见配置项。 e.Start () 与 e.StartServer () 的区别是什么? Echo 如何实现基于先后顺序路由匹配? 如何注册 GET、POST、PUT、DELETE 等不同 HTTP 方法的路由? Echo…

Java 中LinkedList 总结

406.根据身高重建队列 力扣题目链接(opens new window) 假设有打乱顺序的一群人站成一个队列,数组 people 表示队列中一些人的属性(不一定按顺序)。每个 people[i] [hi, ki] 表示第 i 个人的身高为 hi ,前面 正好 有 ki 个身高…

大模型微调:从零到实践,掌握AI大模型的核心技能

大模型微调:从零到实践,掌握AI大模型的核心技能 引言 大规模语言模型(如DeepSeek、通义千问)的出现,彻底改变了自然语言处理的格局。这些模型不仅在学术界取得了突破性进展,在工业界也得到了广泛应用。 …

Flutter - 原生交互 - 相册

环境 Flutter 3.29 macOS Sequoia 15.4.1 Xcode 16.3 iOS 13.4.1 iOS 18.5 集成image_picker 在Flutter中可以使用image_picker插件实现从相册中获取图片 添加插件 flutter中访问相册image_picker插件 flutter pub add image_pickerflutter pub getXcode工程的GenerateP…

node.js在vscode的配置

文章目录 概要1. 使用和webstrom一样的快捷键2. 让vscode的主题变成webstrom3. 如何在 Node.js 环境下写代码3.1 使用 ESLint配置规则3.2 配置.vscode/settings.json 4. Prettier安装5. 其它问题解决 概要 node.js在webstrom编辑器中可以完美使用代码提示、错误提示等功能&…

Android14音频子系统-Audio HAL分析

文章目录 1)概述2)HAL的打开流程3)HAL库的实现(Qualcomm)4)tinyalsa5)数据结构6)代码流程 1)概述 1、回顾HAL、tinyalsa与linux driver的关系 2、与AudioFlinger的关系 3、 1、如何判断当前…

前端与 Spring Boot 后端无感 Token 刷新 - 从原理到全栈实践

🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Micro麦可乐的博客 🐥《Docker实操教程》专栏以最新的Centos版本为基础进行Docker实操教程,入门到实战 🌺《RabbitMQ》…

【AI智能体】新手教程-通过 Chat SDK 搭建网页在线客服

通过扣子搭建的智能体可以一键发布为 Chat SDK,快速部署到你的自建网站中,作为在线智能客服面向网站的用户提供 AI 答疑服务。本文档介绍通过 Chat SDK 搭建网页版在线客服的详细操作步骤。 场景说明 网站作为企业和组织与用户互动的重要平台&#xff…

flask静态资源与模板页面、模板用户登录案例

案例代码 import flask# template_folder 模板文件夹(静态页面 html页面渲染) # static_folder 静态资源文件夹主要存放的是类似静态数据、音频、视频、图片等 app flask.Flask(__name__, static_folderstatic, template_foldertemplate)app.route(/) def index():# render_t…

【工具教程】识别PDF中文字内容,批量识别文字并保存到Excel表格中的操作步骤和方法

在日常办公和文件管理中,我们常常会遇到需要处理大量 PDF 文件的情况。有时,为了更好地管理和查找这些文件,需要根据 PDF 文件中特定区域的文字内容对文件进行重命名。例如,在企业档案管理中,合同文件可能需要根据合同…

重生学AI第十三集:初识神经网络之Conv2d

终于该学习神经网络的搭建了,开心,嘻嘻 学习神经网络离不开torch.nn,先把他印在脑子里,什么是torch.nn?他是Pytorch的一个模块,包含了大量构建神经网络需要的类和方法,就像前面学习的torch.utils&#xf…

学习C++、QT---07(C++的权限、C++的引用)

每日一言 你解决的每一个难题,都是在为未来的自己解锁新技能。 权限的讲解 这边呢我们利用银行的一个案例来讲解权限的奥秘 权限指的是public、private 、protected 就是这三种权限,因此有这一张表进行分清他们之间的区别和联系 但是我们在平时的话会因…

全球化短剧平台全栈技术架构白皮书:多区域部署、智能分发与沉浸式体验的完整解决方案

一、全球化基础架构深度设计 全球网络基础设施构建 采用多活数据中心部署模式,在北美(弗吉尼亚)、欧洲(法兰克福)、亚太(新加坡)建立三大核心枢纽节点 构建混合CDN网络,整合AWS Clo…

深入剖析 LGM—— 开启高分辨率 3D 内容创作新时代

一、引言 在当今数字化时代,3D 内容创作的需求如井喷般增长,从游戏开发中绚丽多彩的虚拟世界,到影视制作里震撼人心的特效场景,再到工业设计中精准无误的产品原型,3D 技术无处不在。然而,传统 3D 内容创作…

从用户到社区Committer:小米工程师隋亮亮的Apache Fory成长之路

Apache Fory 是一个基于JIT和零拷贝的高性能多语言序列化框架,实现了高效紧凑的序列化协议,提供极致的性能、压缩率和易用性。在多语言序列化框架技术领域取得了重大突破,推动序列化技术步入高性能易用新篇章!这一切,都…