F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
- 论文链接:https://arxiv.org/pdf/2410.06885
- 代码链接:https://SWivid.github.io/F5-TTS/
一段话总结
本文提出了 F5-TTS,一种基于流匹配和扩散 Transformer(DiT)的全非自回归文本到语音系统,它无需复杂的时长模型、文本编码器和音素对齐,通过 ConvNeXt 优化文本表示并引入推理时的 Sway Sampling 策略,解决了 E2 TTS 收敛慢和鲁棒性低的问题,实现了更快的训练和推理(RTF 达 0.15),在 10 万小时多语言数据集上训练后,展现出高度自然的零样本能力、无缝代码切换和速度控制效率,且已开源代码和检查点。
模型结构
详细信息
核心指标
几个问题
字符和音频的时长对齐是怎么解决的?
noise speech masked speech 和 characters 这几个部分细节上是怎么融入模型的?
局限与展望
遗留问题
- 通过直接尾部 padding 的方式,会导致句子头尾的字符与音频头尾的依赖关系不一致,感觉类似于时长扩展的方式可能会更好?
- masked speech(掩码语音)主要是提供了音频 prompt 信息?但是直接mask中间部分,头尾的保留部分会导致信息泄露,是的音频prompt和文本内容不解耦?
- 这种通过token(character )和 mel 长度的比值关系来预估推理音频长度,是否合理?会存在什么其他问题吗?