AI-Media2Doc： AI 视频图文创作助手

📖 简介

AI 视频图文创作助手是一款 Web 工具, 基于 AI 大模型, 一键将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署，以极低的成本体验 AI 视频/音频转风格文档服务。

✨ 核心功能

✅ 完全开源：MIT 协议授权，支持本地部署。
🔒 隐私保护：无需登录注册，任务记录保存在本地
💻 前端处理：采用 ffmpeg wasm 技术，无需本地安装 ffmpeg
🎯 多种风格支持：支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
🤖 AI 对话：支持针对视频内容进行 AI 二次问答。
🎬 支持字幕导出: 结果一键导出为字幕文件。
🖼️ 智能截图: 基于字幕信息智能截图并**文章, 无需视觉大模型, 实现真正的图文并茂。
🎨 支持自定义 Prompt：支持在前端自定义配置 prompt。
🐳 一键部署：支持 Docker 一键部署。
🔒 支持设置访问密码: 后端设置访问密码之后, 前端用户需要填写该密码才可以正常使用。

🔜 未来计划

🎙️ 音频识别支持使用 fast-whisper 本地大模型处理，进一步降低成本

👾 开发者的废话

AI 视频创作助手源于我年初的一个想法, 作为一个喜欢阅读的人, 我更希望将一些视频内容转化为文字, 方便我进行二次阅读思考和总结记录笔记, 但市面上并没有一个好的工具来实现这个想法, 大多数工具都需要登录和付费, 我不太想在互联网上注册过多的账号, 同时也不想将自己想要总结的内容上传至除了云厂商之外的第三方平台，因此我开发了这个小应用，MIT 协议, 任何人都可以以极低的成本去体验音视频转文本。

💬 哪里可以找到我

公众号(韩数同学)

index

或者首页置顶 issue 加入微信交流群. 如果部署遇到问题，我下班之后看到后一般会回复。

项目截图

全新设计的首页, 尽力之作

index

全新功能: 支持智能截图并**到文中对应位置(本地方案, 无需视觉大模型, 0成本)

开启方式, 点击自定义设置->智能截图选择打开。

task details

全新设计的结果页, 支持一键导出为字幕。

task details

支持自定义 prompt

task details

📦 docker 本地一键部署

0️⃣：安装 docker, 这个网上有教程

1️⃣：镜像构建, 在项目根目录下执行:

1 $ make docker-image

2️⃣：参考variables_template.env 在项目根目录下生成 variables.env 文件。请根据后端部署指引 / 配置项说明完善 variables.env 文件中的环境变量。

3️⃣：运行项目,在项目根目录下执行:

1 $ make run

🔧 本地开发指南

🤝 赞助

_{天工超级智能体 1.0} _{调用海量工具完成各种任务}

🔄 处理流程

architecture

🌵 支持开发者

你可以关注我的小红书:

韩数同学：致力于分享 Github 上那些好玩、有趣、免费、实用的高质量项目

微信公众号: 韩数同学

或者请我吃一包辣条 , 作为一个超级喜欢吃辣条的人, 很多晚上维护开源项目都是边吃辣条边写代码的 🤪。如果你有很喜欢吃的辣条, 你可以投喂我吃一包辣条, 5毛一包的也可以, 我将直接开启代码狂暴模式(化身八爪鱼: 🐙)。

请留下你要赞助作者的辣条名称 (🤩❤️‍🔥): 支持卫龙/麻辣王子/博士牛筋/臭干子，禁止投喂(🥵😵😵‍💫🤧🥴): 缺牙齿/霸王丝等有损本人生命值的辣条。

同时请备注你的 github 名称, 方便我整理展示在项目主页。🙌

赞助作者: 我的爱发电主页

赞助名单

🙌 致谢

感谢这些朋友对本项目做出的贡献:


crayon	chen_jx	LMseventeen

感谢以下自媒体对本项目的关注和转发(以下排名不分先后), 大家感兴趣的话可以关注下他们～

HelloGithub	开源AI项目落地	阮一峰的网络日志	一飞开源	胖氪笔记	逛逛Github	小红书: 摸鱼的小李

小红书:
AI-GitHub | 逛逛Github

推特:
| Geek | AIGCLINK | ilovelife | ahhhhfs

📄 许可证

本项目采用 MIT 许可证

🔗 相关链接

volcengine-ai-app-lab
throttled-py：✨Python 限流库，合理限制、平滑云资源用量。

🌟 Star History

本站部分源码来源于网络，版权归属原开发者，用户仅获得使用权。依据《计算机软件保护条例》第十六条，禁止：

逆向工程破解技术保护措施
未经许可的分发行为
去除源码中的原始版权标识

※ 本站源码仅用于学习和研究，禁止用于商业用途。如有侵权, 请及时联系我们进行处理。

侵权举报请提供：侵权页面URL | 权属证明模板

响应时效：收到完整材料后48小时内处理

思考过程

搜索结果

相似度:

手机扫码登录

选择同步平台

仓库同步说明

同步任务已创建

📖 简介

✨ 核心功能

🔜 未来计划

👾 开发者的废话

💬 哪里可以找到我

项目截图

全新设计的首页, 尽力之作

全新功能: 支持智能截图并**到文中对应位置(本地方案, 无需视觉大模型, 0成本)

全新设计的结果页, 支持一键导出为字幕。

支持自定义 prompt

📦 docker 本地一键部署

🔧 本地开发指南

🤝 赞助

🔄 处理流程

🌵 支持开发者

🙌 致谢

📄 许可证

🔗 相关链接

🌟 Star History

免责声明 © 2026 - 虚宝阁

相关推荐

ConvertX-自托管的在线文件转换工具

markpdfdown： 基于大模型视觉识别的PDF转Markdown工具

Seelen-UI： 高度可定制的 Windows 桌面美化工具

drawnix

Trilium 开源个人知识库

Retrieval-based-Voice-Conversion-WebUI

DeepFaceLab

pyscript： 直接在浏览器中用 Python 创建应用程序

VibeVoice： 微软开源的文本转语音项目

OpenIsle- 轻量级的Java开源社区系统

选择同步平台

仓库同步说明

同步任务已创建

仓库下载

文件信息

热 榜

scira： AI 驱动搜索引擎

image-compressor： 前端图片压缩库

squish： 基于浏览器的图像压缩工具

AirBattery： 隔空查看苹果设备电量的 Mac 工具

Seelen-UI： 高度可定制的 Windows 桌面美化工具

pyscript： 直接在浏览器中用 Python 创建应用程序

pydoll： 无需 WebDriver 的浏览器自动化 Python 库

pdfplumber： 轻松提取 PDF 文本和表格的 Python 库

卡片分享

分享到微信

友情链接

Github

Gitee

Gitcode

markpdfdown：基于大模型视觉识别的PDF转Markdown工具

Seelen-UI：高度可定制的 Windows 桌面美化工具

pyscript：直接在浏览器中用 Python 创建应用程序

VibeVoice：微软开源的文本转语音项目

热榜

image-compressor：前端图片压缩库

squish：基于浏览器的图像压缩工具

AirBattery：隔空查看苹果设备电量的 Mac 工具

Seelen-UI：高度可定制的 Windows 桌面美化工具

pyscript：直接在浏览器中用 Python 创建应用程序

pydoll：无需 WebDriver 的浏览器自动化 Python 库

pdfplumber：轻松提取 PDF 文本和表格的 Python 库