如何解决机器翻译的“幻觉“问题（Hallucination）？

如何解决机器翻译的“幻觉“问题（Hallucination）？

bicheng/2025/8/22 6:20:52/文章来源:https://blog.csdn.net/cui_yonghua/article/details/150487678

更多内容请见：机器翻译修炼-专栏介绍和目录

文章目录

- 一、数据层面优化
- 二、模型架构改进
- 三、训练策略调整
- 四、评估与迭代
- 五、前沿方向与挑战
- 六、案例：WMT2023幻觉缓解方案

机器翻译中的“幻觉”（Hallucination）指模型生成与源文本语义无关、逻辑矛盾或事实错误的翻译内容，尤其在低资源场景、长文本或复杂句式中更为突出。解决这一问题需从数据、模型、训练策略、评估与后处理等多维度综合施策。

一、数据层面优化

数据清洗与过滤
- 噪声去除：剔除平行语料中的低质量翻译（如机器翻译生成的语料、语法错误样本），使用语言模型（如BERT）或翻译质量评估工具（如COMET）筛选高置信度数据。
- 领域适配：针对特定领域（如法律、医疗）构建专用语料库，避免模型因领域偏移产生幻觉。例如，WMT比赛中的“术语一致性”任务要求模型严格遵循领域术语表。
数据增强与合成
- 回译（Back-Translation）：通过目标语言到源语言的反向翻译生成伪平行语料，增加数据多样性。但需控制回译质量，避免引入错误（如使用强模型如mBART进行回译）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/94056.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/94056.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于STM32+NBIOT设计的宿舍安防控制系统_264

基于STM32+NBIOT设计的宿舍安防控制系统_264

文章目录 1.1 项目介绍【1】开发背景【2】实现需求【3】项目硬件模块组成【4】设计意义【5】国内外研究现状【6】摘要 1.2 系统总体设计【1】系统功能需求分析【2】系统总体方案设计【3】系统工作原理 1.3 系统框架图 1.4 系统功能总结 1.5 系统原理图 1.6 实物图 1.7…

阅读更多...

SLAM文献之-Globally Consistent and Tightly Coupled 3D LiDAR Inertial Mapping

SLAM文献之-Globally Consistent and Tightly Coupled 3D LiDAR Inertial Mapping

一、简介该论《Globally Consistent and Tightly Coupled 3D LiDAR Inertial Mapping》是日本先进工业科学技术研究所（AIST）的Koide等人于2022年在IEEE国际机器人与自动化会议（ICRA）上发表的一篇论文。该研究提出了一种基于全局…

阅读更多...

【STM32】HAL库中的实现（七）：DMA（直接存储器访问）

【STM32】HAL库中的实现（七）：DMA（直接存储器访问）

DMA 是什么？ DMA（Direct Memory Access）是外设直接和内存之间数据搬运的机制，不需要 CPU 参与。 ✅ 举个例子：传统方式： ADC → CPU → RAM 使用 DMA：ADC → DMA → RAM（CPU 不需干…

阅读更多...

【LeetCode热题100道笔记+动画】字母异位词分组

【LeetCode热题100道笔记+动画】字母异位词分组

题目描述给你一个字符串数组，请你将字母异位词组合在一起。可以按任意顺序返回结果列表。示例 1: 输入: strs = [“eat”, “tea”, “tan”, “ate”, “nat”, “bat”] 输出: [[“bat”],[“nat”,“tan”],[“ate”,“eat”,“tea”]] 解释：在 strs 中没有字符串可…

阅读更多...

【Kafka】常见简单八股总结

【Kafka】常见简单八股总结

为什么使用消息队列？ 解耦： 我以我的一段开发经验举例： 【Kafka】登录日志处理的三次阶梯式优化实践：从同步写入到Kafka多分区批处理我做过一个登录日志逻辑，就是在登录逻辑末尾，加一段写进数据库登录日志…

阅读更多...

微信小程序连接到阿里云物联网平台

微信小程序连接到阿里云物联网平台

目录准备阶段阿里云配置下载mqtt.min.js文件小程序实现注意小程序配置服务器域名概述：介绍使用微信小程序连接到阿里云平台的快捷方法和完整过程。阿里云平台建立设备，提供mqtt连接参数，小程序借助mqtt.min.js，也就是基于Github下…

阅读更多...

2-3〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸AppScan（WEB扫描）

2-3〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸AppScan（WEB扫描）

郑重声明： 本文所有安全知识与技术，仅用于探讨、研究及学习，严禁用于违反国家法律法规的非法活动。对于因不当使用相关内容造成的任何损失或法律责任，本人不承担任何责任。如需转载，请注明出处且不得用于商业盈利。 …

阅读更多...

LeetCode 刷题【47. 全排列 II】

LeetCode 刷题【47. 全排列 II】

47. 全排列 II 自己做解1：检查重复 class Solution { public:void circle(vector<int> nums, vector<vector<int>> &res,int start){int len nums.size();if(start len - 1){ //到头了//检查重复bool is_exist fa…

阅读更多...

Https之(一)TLS介绍及握手过程详解

Https之(一)TLS介绍及握手过程详解

文章目录简介 TLSTLS第一次握手1.Client HelloTLS第二次握手2.Server Hello3.Certificate4.Server Hello DoneTLS第三次握手5.Client Key Exchange6.Change Cipher Spec7.Encrypted Handshake MessageTLS第四次握手8.New Session Ticket9.Change Cipher Spec10.Encrypted Hands…

阅读更多...

【WEB 】从零实现一个交互轮播图（附源码）

【WEB 】从零实现一个交互轮播图（附源码）

文章目录一、轮播图整体功能规划二、HTML结构深度解析三、CSS样式实现细节1. 定位系统详解2. 显示/隐藏机制3. 按钮交互效果实现4. 纯CSS箭头实现5. 指示器：当前位置可视化四、JavaScript逻辑深入解析1. 核心变量与DOM获取2. 图片切换函数（核心逻辑&am…

阅读更多...

机器学习--PCA降维

机器学习--PCA降维

一核心部分 1解决的问题：应对高维数据带来的计算量大、冗余信息多、易出现过拟合等问题，在减少数据维度的同时尽可能保留原始数据的关键信息。2核心思想&#xff1a…

阅读更多...

leetcode 1277. 统计全为 1 的正方形子矩阵中等

leetcode 1277. 统计全为 1 的正方形子矩阵中等

给你一个 m * n 的矩阵，矩阵中的元素不是 0 就是 1，请你统计并返回其中完全由 1 组成的正方形子矩阵的个数。示例 1：输入：matrix [[0,1,1,1],[1,1,1,1],[0,1,1,1] ] 输出：15 解释： 边长为 1 的正方形有…

阅读更多...

知识蒸馏 - 各类概率分布

知识蒸馏 - 各类概率分布

知识蒸馏 - 各类概率分布 flyfish一、离散概率分布离散分布描述的是取值为离散值（如0,1,2,…）的随机变量的概率规律，通常用概率质量函数（PMF） 表示某一取值的概率。 1. 伯努利分布（Bernoulli Distribution…

阅读更多...

软件测试-Selenium学习笔记

软件测试-Selenium学习笔记

""" 目标： driver.find_element() 需求： 1. 使用driver.find_element()方法 2. 输入用户名：admin 3. 输入密码：123456 """ # 导包 from selenium import webdriver from time import …

阅读更多...

知微传感3D相机上位机DkamViewer使用：给相机升级固件

知微传感3D相机上位机DkamViewer使用：给相机升级固件

写在前面本人从事机器视觉细分的3D相机行业。编写此系列文章主要目的有： 1、便利他人应用相机，本系列文章包含公司所出售相机的SDK的使用例程及详细注释；2、促进行业发展及交流。知微传感Dkam系列3D相机可以应用于定位分拣、焊接焊缝提取、…

阅读更多...

CMake进阶: CMake Modules---简化CMake配置的利器

CMake进阶: CMake Modules---简化CMake配置的利器

目录 1.简介 2.为什么需要 CMake Modules？ 3.内置模块：开箱即用的工具 3.1.依赖查找模块（FindXXX.cmake） 3.2.功能检测模块（CheckXXX.cmake） 3.3.通用工具模块（如 FetchContent.cmake、CT…

阅读更多...

【Docker】Ubuntu上安装Docker（网络版）

【Docker】Ubuntu上安装Docker（网络版）

【Docker】Ubuntu上安装Docker注意：一、环境准备1. 系统要求2. 卸载旧版本二、安装步骤1.配置仓库源2.安装 Docker引擎3.验证安装情况三、解决报错1、检查网络连接2、检查Docker服务状态3、换源4.重载生效、重启服务、查看是否配置成功5.验证解决情况四、权限与配置…

阅读更多...

Socket 编程 TCP

Socket 编程 TCP

TCP 网络程序和刚才 UDP 类似. 实现一个简单的英译汉的功能。TCP是面向字节流的可靠传输，如同前文的管道流，只要是流，它的操作就是文件的写出与读入。TCP socket API 详解下面介绍程序中用到的 socket API,这些函数都在 sys/socket.h 中。so…

阅读更多...

使用AWS S3 + Lambda + MediaConvert 实现上传视频文件并自动转码

使用AWS S3 + Lambda + MediaConvert 实现上传视频文件并自动转码

前言最近团队在做短视频平台的技术调研，其中有一个环节便是音视频开发，即对用户上传的视频进行自适应转码。自适应的原理其实就是预先将视频转换为几个常用的分辨率，app端根据用户手机分辨率拉取相应分辨率的视频。目前尝试了两种方案&…

阅读更多...

QT之QWaitCondition降低cpu占用率，从忙等待到高效同步

QT之QWaitCondition降低cpu占用率，从忙等待到高效同步

在多线程编程中，线程间的同步是一个核心问题。在处理线程等待时，经常会写出高CPU占用率的代码，其中最典型的就是使用忙等待（busy waiting）。本文将详细介绍如何使用Qt框架中的QWaitCondition类来优雅地解决这一问题&am…

阅读更多...

最新文章