VibeVoice: 微软开源的文本转语音项目

2025年09月16日 06:30:43
11842
语音对话 VibeVoice 语音 模型 音频 AI

项目结构

📌 VibeVoice microsoft/VibeVoice

让 AI 生成像真实聊天或播客那样自然、流畅的长篇对话语音。

项目大小
涉及语言
许可协议 MIT License

🎙️ VibeVoice:前沿长对话文本转语音模型

Project Page
Hugging Face
Technical Report

VibeVoice Logo

2025-09-05: VibeVoice 是一个开源研究框架,旨在促进语音合成社区的协作。发布后,我们发现该工具的使用方式与所述意图不一致。由于负责任地使用 AI 是 Microsoft 的指导原则之一,因此我们已禁用此存储库,直到我们确信不再可能超出范围使用。


VibeVoice 是一个新颖的框架,旨在生成 表达, 长篇, 多扬声器 来自文本的对话音频,例如播客。它解决了传统文本转语音 (TTS) 系统中的重大挑战,特别是在可扩展性、说话人一致性和自然轮流方面。

VibeVoice 的一项核心创新是它使用以 7.5 Hz 的超低帧速率运行的连续语音分词器(声学和语义)。这些分词器有效地保持音频度,同时显着提高处理长序列的计算效率。VibeVoice 采用 next-token diffusion 框架,利用大型语言模型 (LLM) 来理解文本上下文和对话流程,并利用扩散头来生成高声学细节。

该模型可以合成高达 90分钟 长,最高可达4 个不同的扬声器,超过了许多先前型号的典型 1-2 个扬声器限制。

MOS Preference Results VibeVoice Overview

🎵 演示示例

视频演示

我们制作了这个视频 Wan2.2.我们衷心感谢万视频团队的出色工作。

英语

中文

跨语言

自发演唱

与 4 人进行长时间交谈

有关更多示例,请参阅 Project Page.

风险和局限性

尽管已经努力通过各种技术对其进行优化,但它仍然可能产生意外、有偏见或不准确的输出。VibeVoice 继承了其基本模型(特别是此版本中的 Qwen2.5 1.5b)产生的任何偏差、错误或遗漏。
深度伪造和虚假信息的可能性:高质量的合成语音可能会被滥用,以创建令人信服的虚假音频内容,用于冒充、欺诈或传播虚假信息。用户必须确保成绩单可*,检查内容准确性,并避免以误导性方式使用生成的内容。用户应以合法的方式使用生成的内容并部署模型,并完全遵守相关司法管辖区的所有适用法律和法规。在共享 AI 生成的内容时,最佳做法是披露 AI 的使用情况。

仅限英文和中文:英语或中文以外的语言的成绩单可能会导致意外的音频输出。

非语音音频:该模型仅专注于语音合成,不处理背景噪音、音乐或其他音效。

重叠语音:当前模型不会在对话中显式建模或生成重叠的语音片段。

我们不建议在没有进一步测试和开发的情况下在商业或实际应用程序中使用 VibeVoice。该模型仅用于研究和开发目的。请负责任地使用。

免责声明 © 2025 - 虚宝阁

本站部分源码来源于网络,版权归属原开发者,用户仅获得使用权。依据《计算机软件保护条例》第十六条,禁止:

  • 逆向工程破解技术保护措施
  • 未经许可的分发行为
  • 去除源码中的原始版权标识

※ 本站源码仅用于学习和研究,禁止用于商业用途。如有侵权, 请及时联系我们进行处理。

侵权举报请提供: 侵权页面URL | 权属证明模板

响应时效:收到完整材料后48小时内处理

相关推荐

Retrieval-based-Voice-Conversion-WebUI

Retrieval-based-Voice-Conversion-WebUI是基于VITS的易用变声框架。底模用开源VCTK数据集训练,无版权问题。有训练推理和实时变声界面,具备很多优点。

32357 2025-09-06

Claudable:基于 Next.js 框架的网站生成器

把你用自然语言描述的应用想法,直接变成可以运行的网站代码。Claudable 背后依赖强大的 AI 编程助手,主要是 Claude Code,也支持 Cursor CLI 来理解你的需求并生成代码。你不需要懂复杂的 API 设置、数据库配置或者部署流程:用简单的语言告诉 Claudable 你想要什么应用。

2525 2025-09-15

AI-Media2Doc: AI 视频图文创作助手

一键将音视频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

2513 2025-09-25

OpenIsle- 轻量级的Java开源社区系统

这是一个基于 Spring Boot 和 Vue3 构建的开源自由社区系统,定位为轻量级的 Discourse。它完全开源、可二次开发,支持白名单邀请、自定义标签、实时通知等功能。

393 2025-09-13

presenton AI PPT 生成器

一个免费的、能完全在你自己电脑上运行的 AI PPT 生成工具。和那些必须联网、依赖服务商云服务的工具不同,Presenton 的核心优势在于本地优先和开放可控。 你的数据你做主, 所有生成演示文稿的过程都在你的电脑上完成。这意味着你的内容创意、上传的文件等敏感信息,无需上传到第三方云端服务器,隐私更有保障。自由选择AI模型,它不绑定任何一家 AI 服务商。你可以灵活选择。

2412 2025-09-14

DeepFaceLab

换脸圈的“老大哥”,开源界扛把子,功能强到离谱。不管是图片换脸、长视频换脸,还是修复模糊人脸,它都能搞定。网上很多高质量换脸视频都出自它手,但毕竟是专业级选手,上手难度稍高,得花点时间研究流程,学会了就能玩出花。

18651 2025-09-14

langchainjs: 用语言模型构建模块化AI应用

帮助你用大型语言模型(如 GPT)构建模块化智能应用。 想做 AI 代理?做会读 PDF 的问答机器人?轻松搞定。 简直是生成式 AI 的乐高积木。

15824 2025-10-01

prompt-optimizer: 开源提示词优化工具

一款提示词优化器,助力于编写高质量的提示词

15874 2025-09-26

NBlog: 开源博客系统

一个前后端分离的开源博客系统,基于 Spring Boot + Vue 技术栈开发,界面清新简洁,拥有多个丰富的博客组件,自带管理后台。

2636 2025-09-16

omi: 腾讯出品的多端开发框架

Web Components Framework - Web组件框架

13230 2025-09-25

pyscript: 直接在浏览器中用 Python 创建应用程序

在 HTML 文件中直接使用 Python 编程语言,像 JavaScript 文件一样引入和执行 Python 代码,支持更小的 MicroPython、常见第三方库和操作页面元素等功能,适用于快速创建交互的数据可视化、网站原型和在线教育等 Web 应用场景。

18589 2025-10-04

Seelen-UI: 高度可定制的 Windows 桌面美化工具

一款免费开源的 Windows 桌面增强工具,专注于高度自定义和效率提升。它采用 Rust 语言开发,结合 Tauri 框架与 Web 技术,支持窗口平铺管理、应用启动器、Dock、任务栏、动态壁纸、插件扩展等功能。

13691 2025-10-04