更多内容请见: 机器翻译修炼-专栏介绍和目录
文章目录
-
- 一、数据层面优化
- 二、模型架构改进
- 三、训练策略调整
- 四、评估与迭代
- 五、前沿方向与挑战
- 六、案例:WMT2023幻觉缓解方案
机器翻译中的“幻觉”(Hallucination)指模型生成与源文本语义无关、逻辑矛盾或事实错误的翻译内容,尤其在低资源场景、长文本或复杂句式中更为突出。解决这一问题需从数据、模型、训练策略、评估与后处理等多维度综合施策。
一、数据层面优化
-
数据清洗与过滤
- 噪声去除:剔除平行语料中的低质量翻译(如机器翻译生成的语料、语法错误样本),使用语言模型(如BERT)或翻译质量评估工具(如COMET)筛选高置信度数据。
- 领域适配:针对特定领域(如法律、医疗)构建专用语料库,避免模型因领域偏移产生幻觉。例如,WMT比赛中的“术语一致性”任务要求模型严格遵循领域术语表。
-
数据增强与合成
- 回译(Back-Translation):通过目标语言到源语言的反向翻译生成伪平行语料,增加数据多样性。但需控制回译质量,避免引入错误(如使用强模型如mBART进行回译)。