AI-Media2Doc: AI 视频图文创作助手

2025年09月25日 23:52:44
7876
AI音频转文本 AI视频转文本 AI模型

项目结构

📌 AI-Media2Doc hanshuaikang/AI-Media2Doc

一键将音视频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

项目大小
涉及语言 Vue 68.87% JavaScript 11.44% Python 9.08% TypeScript 8.13% CSS 1.14% Dockerfile 0.75% Makefile 0.52% HTML 0.08%
许可协议 MIT License

logo

Featured|HelloGitHub

MIT License Web Platform Docker Support

📖 简介

AI 视频图文创作助手是一款 Web 工具, 基于 AI 大模型, 一键将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。

✨ 核心功能

  • 完全开源:MIT 协议授权,支持本地部署。
  • 🔒 隐私保护:无需登录注册,任务记录保存在本地
  • 💻 前端处理:采用 ffmpeg wasm 技术,无需本地安装 ffmpeg
  • 🎯 多种风格支持:支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
  • 🤖 AI 对话:支持针对视频内容进行 AI 二次问答。
  • 🎬 支持字幕导出: 结果一键导出为字幕文件。
  • 🖼️ 智能截图: 基于字幕信息智能截图并**文章, 无需视觉大模型, 实现真正的图文并茂。
  • 🎨 支持自定义 Prompt:支持在前端自定义配置 prompt。
  • 🐳 一键部署:支持 Docker 一键部署。
  • 🔒 支持设置访问密码: 后端设置访问密码之后, 前端用户需要填写该密码才可以正常使用。

🔜 未来计划

  • 🎙️ 音频识别支持使用 fast-whisper 本地大模型处理,进一步降低成本

👾 开发者的废话

AI 视频创作助手源于我年初的一个想法, 作为一个喜欢阅读的人, 我更希望将一些视频内容转化为文字, 方便我进行二次阅读思考和总结记录笔记, 但市面上并没有一个好的工具来实现这个想法, 大多数工具都需要登录和付费, 我不太想在互联网上注册过多的账号, 同时也不想将自己想要总结的内容上传至除了云厂商之外的第三方平台,因此我开发了这个小应用,MIT 协议, 任何人都可以以极低的成本去体验音视频转文本。

💬 哪里可以找到我

公众号(韩数同学)

index

或者首页置顶 issue 加入微信交流群. 如果部署遇到问题,我下班之后看到后一般会回复。

项目截图

全新设计的首页, 尽力之作

index

全新功能: 支持智能截图并**到文中对应位置(本地方案, 无需视觉大模型, 0成本)

开启方式, 点击自定义设置->智能截图 选择打开。

task details

全新设计的结果页, 支持一键导出为字幕。

task details

支持自定义 prompt

task details

📦 docker 本地一键部署

0️⃣:安装 docker, 这个网上有教程

1️⃣:镜像构建, 在项目根目录下执行:

1
$ make docker-image

2️⃣:参考variables_template.env 在项目根目录下生成 variables.env 文件。 请根据 后端部署指引 / 配置项说明 完善 variables.env 文件中的环境变量。

3️⃣:运行项目,在项目根目录下执行:

1
$ make run

🔧 本地开发指南

🤝 赞助


天工超级智能体 1.0
调用海量工具完成各种任务

🔄 处理流程

architecture

🌵 支持开发者

你可以关注我的小红书:

韩数同学: 致力于分享 Github 上那些好玩、有趣、免费、实用的高质量项目

微信公众号: 韩数同学

或者请我吃一包辣条 , 作为一个超级喜欢吃辣条的人, 很多晚上维护开源项目都是边吃辣条边写代码的 🤪。如果你有很喜欢吃的辣条, 你可以投喂我吃一包辣条, 5毛一包的也可以, 我将直接开启代码狂暴模式(化身八爪鱼: 🐙)。

请留下你要赞助作者的辣条名称 (🤩❤️‍🔥): 支持卫龙/麻辣王子/博士牛筋/臭干子,禁止投喂(🥵😵😵‍💫🤧🥴): 缺牙齿/霸王丝等有损本人生命值的辣条。

同时请备注你的 github 名称, 方便我整理展示在项目主页。🙌

赞助作者: 我的爱发电主页

赞助名单

🙌 致谢

感谢这些朋友对本项目做出的贡献:


crayon

chen_jx

LMseventeen

感谢以下自媒体对本项目的关注和转发(以下排名不分先后), 大家感兴趣的话可以关注下他们 ~

HelloGithub 开源AI项目落地 阮一峰的网络日志 一飞开源 胖氪笔记 逛逛Github 小红书: 摸鱼的小李

小红书:
AI-GitHub | 逛逛Github

推特:
| Geek | AIGCLINK | ilovelife | ahhhhfs

📄 许可证

本项目采用 MIT 许可证

🔗 相关链接

🌟 Star History

Star History Chart

免责声明 © 2025 - 虚宝阁

本站部分源码来源于网络,版权归属原开发者,用户仅获得使用权。依据《计算机软件保护条例》第十六条,禁止:

  • 逆向工程破解技术保护措施
  • 未经许可的分发行为
  • 去除源码中的原始版权标识

※ 本站源码仅用于学习和研究,禁止用于商业用途。如有侵权, 请及时联系我们进行处理。

侵权举报请提供: 侵权页面URL | 权属证明模板

响应时效:收到完整材料后48小时内处理

相关推荐

ConvertX-自托管的在线文件转换工具

一个开源的在线文件格式转换工具,支持超过 1000 种主流文档、图片、音视频等多类型文件格式,不依赖第三方服务。它即装即用、操作便捷,并提供文件夹批量处理、实时进度条显示等功能。

8500 2025-09-13

DeepFaceLab

换脸圈的“老大哥”,开源界扛把子,功能强到离谱。不管是图片换脸、长视频换脸,还是修复模糊人脸,它都能搞定。网上很多高质量换脸视频都出自它手,但毕竟是专业级选手,上手难度稍高,得花点时间研究流程,学会了就能玩出花。

18651 2025-09-14

ImageMagick: 图片处理瑞士军刀

ImageMagick是开源的命令行图片工具,压缩图片、转格式、加水印、切图都能一行命令搞定,还能批量处理如把100张图片批量压缩成WebP格式,自媒体、开发者都能用。

14651 2025-09-16

Retrieval-based-Voice-Conversion-WebUI

Retrieval-based-Voice-Conversion-WebUI是基于VITS的易用变声框架。底模用开源VCTK数据集训练,无版权问题。有训练推理和实时变声界面,具备很多优点。

32357 2025-09-06

drawnix

开源白板工具(SaaS),一体化白板,包含思维导图、流程图、自由画等。All in one open-source whiteboard tool with mind, flowchart, freehand and etc.

11913 2025-08-28

presenton AI PPT 生成器

一个免费的、能完全在你自己电脑上运行的 AI PPT 生成工具。和那些必须联网、依赖服务商云服务的工具不同,Presenton 的核心优势在于本地优先和开放可控。 你的数据你做主, 所有生成演示文稿的过程都在你的电脑上完成。这意味着你的内容创意、上传的文件等敏感信息,无需上传到第三方云端服务器,隐私更有保障。自由选择AI模型,它不绑定任何一家 AI 服务商。你可以灵活选择。

2412 2025-09-14

pyscript: 直接在浏览器中用 Python 创建应用程序

在 HTML 文件中直接使用 Python 编程语言,像 JavaScript 文件一样引入和执行 Python 代码,支持更小的 MicroPython、常见第三方库和操作页面元素等功能,适用于快速创建交互的数据可视化、网站原型和在线教育等 Web 应用场景。

18589 2025-10-04

Seelen-UI: 高度可定制的 Windows 桌面美化工具

一款免费开源的 Windows 桌面增强工具,专注于高度自定义和效率提升。它采用 Rust 语言开发,结合 Tauri 框架与 Web 技术,支持窗口平铺管理、应用启动器、Dock、任务栏、动态壁纸、插件扩展等功能。

13691 2025-10-04

OpenIsle- 轻量级的Java开源社区系统

这是一个基于 Spring Boot 和 Vue3 构建的开源自由社区系统,定位为轻量级的 Discourse。它完全开源、可二次开发,支持白名单邀请、自定义标签、实时通知等功能。

393 2025-09-13

Trilium 开源个人知识库

这是一个专门为管理大量结构化笔记而设计的应用程序。 它的核心目标就是帮助你有效地收集、组织、链接和查找你积累的知识和信息。

31988 2025-09-15