2024.8tsinghua method whisper encoder: whisper small LLM Qwen0.5b init预测方式:text + 7*audio token, parallel generation的方式预测,delay-step=1----先预测文本token,再预测SNAC 第一级码本,然后序列化的逐渐预测后续码本,也遵循了coarse-to-fine的预测; audio token:SNAC的码本,7级 SNAC 的不同级别,码本的预测粒度不同; data VoiceAssistant-400K 的数据集