2025-09-05: VibeVoice 是一个开源研究框架,旨在促进语音合成社区的协作。发布后,我们发现该工具的使用方式与所述意图不一致。由于负责任地使用 AI 是 Microsoft 的指导原则之一,因此我们已禁用此存储库,直到我们确信不再可能超出范围使用。
VibeVoice 是一个新颖的框架,旨在生成 表达, 长篇, 多扬声器 来自文本的对话音频,例如播客。它解决了传统文本转语音 (TTS) 系统中的重大挑战,特别是在可扩展性、说话人一致性和自然轮流方面。
VibeVoice 的一项核心创新是它使用以 7.5 Hz 的超低帧速率运行的连续语音分词器(声学和语义)。这些分词器有效地保持音频度,同时显着提高处理长序列的计算效率。VibeVoice 采用 next-token diffusion 框架,利用大型语言模型 (LLM) 来理解文本上下文和对话流程,并利用扩散头来生成高声学细节。
该模型可以合成高达 90分钟 长,最高可达4 个不同的扬声器,超过了许多先前型号的典型 1-2 个扬声器限制。
🎵 演示示例
视频演示
我们制作了这个视频 Wan2.2.我们衷心感谢万视频团队的出色工作。
英语
中文
跨语言
自发演唱
与 4 人进行长时间交谈
有关更多示例,请参阅 Project Page.
风险和局限性
尽管已经努力通过各种技术对其进行优化,但它仍然可能产生意外、有偏见或不准确的输出。VibeVoice 继承了其基本模型(特别是此版本中的 Qwen2.5 1.5b)产生的任何偏差、错误或遗漏。
深度伪造和虚假信息的可能性:高质量的合成语音可能会被滥用,以创建令人信服的虚假音频内容,用于冒充、欺诈或传播虚假信息。用户必须确保成绩单可*,检查内容准确性,并避免以误导性方式使用生成的内容。用户应以合法的方式使用生成的内容并部署模型,并完全遵守相关司法管辖区的所有适用法律和法规。在共享 AI 生成的内容时,最佳做法是披露 AI 的使用情况。
仅限英文和中文:英语或中文以外的语言的成绩单可能会导致意外的音频输出。
非语音音频:该模型仅专注于语音合成,不处理背景噪音、音乐或其他音效。
重叠语音:当前模型不会在对话中显式建模或生成重叠的语音片段。
我们不建议在没有进一步测试和开发的情况下在商业或实际应用程序中使用 VibeVoice。该模型仅用于研究和开发目的。请负责任地使用。
免责声明 © 2025 - 虚宝阁
本站部分源码来源于网络,版权归属原开发者,用户仅获得使用权。依据《计算机软件保护条例》第十六条,禁止:
- 逆向工程破解技术保护措施
- 未经许可的分发行为
- 去除源码中的原始版权标识
※ 本站源码仅用于学习和研究,禁止用于商业用途。如有侵权, 请及时联系我们进行处理。