VALL-E 2

AI音频3,770 次访问0 收藏

产品介绍 VALL E 2是由微软亚洲研究院研发的最新一代零样本文本到语音合成模型，首次实现了在LibriSpeech和VCTK数据集中合成语音达到人类水平。它基于先进的神经编解码器语言模型架构，集成了重复感知采样和分组编码建模两大技术创新，代表了大语言模型的思路在语音生成领域的新高度[reference:76]。 VALL E 2能够从仅3秒的参考音频中提取出目标说话人的声音特征，然后在零样本训练下生成与该人几乎一致的自然语音[reference:77]。它通过重复感知采样机制（考虑解码历史中的Token重复度）优化原始的核心解码过程，再结合分组编码建模技术有效减少推断时的序列长符，显著提升了推理速度和生成稳定度。VALL E 2适用于教育、娱乐、多语言无障碍交流等多个场景。主要功能零样本声音合成：只需要3秒的参考音频，无需任何微调训练即可在新的上下文中合成原说话者的语音[reference:78]。人类水平的合成质量：VALL E 2是首个在标准语音测试基准上接近人类录音的合成系统，合成语音的自然度与真人难以区分。训练数据庞大：VALL E 2模型训练于6万小时语音、7,…

https://www.microsoft.com/en-us/research/project/vall-e-2

场景分类（首页「按场景找 AI」聚合口径）

内容创作与自媒体办公与效率提升设计创意

标签

AI音频音频对话翻译3D语音合成

工具介绍

产品介绍

VALL-E 2是由微软亚洲研究院研发的最新一代零样本文本到语音合成模型，首次实现了在LibriSpeech和VCTK数据集中合成语音达到人类水平。它基于先进的神经编解码器语言模型架构，集成了重复感知采样和分组编码建模两大技术创新，代表了大语言模型的思路在语音生成领域的新高度[reference:76]。

VALL-E 2能够从仅3秒的参考音频中提取出目标说话人的声音特征，然后在零样本训练下生成与该人几乎一致的自然语音[reference:77]。它通过重复感知采样机制（考虑解码历史中的Token重复度）优化原始的核心解码过程，再结合分组编码建模技术有效减少推断时的序列长符，显著提升了推理速度和生成稳定度。VALL-E 2适用于教育、娱乐、多语言无障碍交流等多个场景。

主要功能

零样本声音合成：只需要3秒的参考音频，无需任何微调训练即可在新的上下文中合成原说话者的语音[reference:78]。

人类水平的合成质量：VALL-E 2是首个在标准语音测试基准上接近人类录音的合成系统，合成语音的自然度与真人难以区分。

训练数据庞大：VALL-E 2模型训练于6万小时语音、7,000位不同语言、不同口音的演讲者的音频语料库[reference:79]。

高效推理：重复感知采样和分组编码建模显著降低解码的潜在周期，极大减少了生成长时间语音的不连贯或无限循环问题。

支持多语种和多口音：能够自动适应不同语言和方言，直接转换文本发音风格，而无需事先进行专门的多语言训练。

使用场景

语音无障碍辅助工具：为失语症患者生成语音来协助日常交流，使沟通更为顺畅[reference:80]。

多语言内容配音：在娱乐和教育场景下，为电影和课程内容快速生成目标语言的高质量配音。

语音合成科研基线：学术界研究人员将VALL-E 2作为对比基准，评估自己的TTS模型的进步空间。

有声读物商业批量制作：出版社以极小的音频素材代价创建一致性主播声音，大幅简化录音流程。

游戏和开发工具：为游戏角色的随机对话分支提供零样本生成语音的能力，大幅节省录制成本。

工具的问题

VALL-E 2是微软亚洲研究院的专有研究模型，并未公开向消费者发布商业化产品。企业和开发者需要与微软进行商业合作或通过Azure AI Speech服务间接获得VALL-E 2的部分能力，而普通公众自己无法自由下载使用（它不像开源模型）。克隆音频仅需3秒——这也使得它如果被恶意使用可能生成功率大的语音安全风险，造成冒用他人或名人声音的深度伪造危机。微软在保护VALL-E 2的伦理合规方面虽有自己的安全政策，但系统实际对外输出仍需谨慎对待社会疑虑。微软在AI语音领域有自己的Azure语音产品体系，VALL-E 2的纯学术成果性质令普通用户无法感知到它在日常场景的好处。价格取决于你通过Azure AI Speech使用VALL-E 2的调用量，成本不便宜。它虽然合成质量高且自然，但对于超长文本合成音频时的高稳定性处理尚有探索空间。