📌 大家好,我是智界工具库,每天分享好用实用且智能的开源项目,以及在JAVA语言开发中遇到的问题,如果本篇文章对您有所帮助,请帮我点个小赞小收藏小关注吧,谢谢喲!😘
博主声明:本文旨在提供技术指导和灵感,不涉及任何具体软件或工具的推广。
一、简介:
《VideoCaptioner》操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用大语言模型进行字幕智能断句、校正、翻译,字幕视频全流程一键处理。为视频配上效果惊艳的字幕。
最新版本已经支持 VAD 、人声分离、字级时间戳、批量字幕等实用功能
- 无需GPU即可使用强大的语音识别引擎,生成精准字幕
- 基于 LLM 的智能分割与断句,字幕阅读更自然流畅
- AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业
- 支持批量视频字幕合成,提升处理效率
- 直观的字幕编辑查看界面,支持实时预览和快捷编辑
- 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用
二、应用场景:
1. 自媒体创作者
- 会员功能替代:
- 字幕翻译:调用LLM模型翻译(支持DeepSeek/Claude),质量优于剪映机翻,且无VIP限制;
- 字幕样式:提供新闻风、番剧风等模板,直接导出ASS/SRT格式,兼容Premiere无缝编辑。
- 隐私保护:本地处理视频数据,避免剪映云端上传风险。
2. 教育工作者
- 网课字幕生成:
- 分离人声与背景音(VAD技术),嘈杂教室录音仍可精准识别;
- 数学公式/代码术语自动校正(剪映无此功能)。
- 多语言本地化:支持99种语言翻译,适配外文课程视频。
3. 开发者扩展
- 二次开发接口:
- 提供标准OpenAI API格式,可接入SiliconCloud、Ollama等自建模型;
- 批处理脚本支持命令行操作,集成至自动化流水线
三、截图示例:
四、安装教程:
下载源码项目:点我下载安装包https://pan.xunlei.com/s/VOXupvkeWZmYuCSMsyfW1JF6A1?pwd=ad5t#
基本配置
1. LLM API 配置说明
LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译(如果选择了LLM 大模型翻译)。
配置项 | 说明 |
---|---|
SiliconCloud | SiliconCloud 官网配置方法请参考配置文档 该并发较低,建议把线程设置为5以下。 |
DeepSeek | DeepSeek 官网,建议使用 deepseek-v3 模型,官方网站最近服务好像并不太稳定。 |
Ollama本地 | Ollama 官网 |
内置公益模型 | 内置基础大语言模型(gpt-4o-mini )(公益服务不稳定,强烈建议请使用自己的模型API) |
OpenAI兼容接口 | 如果有其他服务商的API,可直接在软件中填写。base_url 和api_key |
注:如果用的 API 服务商不支持高并发,请在软件设置中将“线程数”调低,避免请求错误。
本文完结!
祝各位点赞收藏的大佬们身体健康,万事如意,发财暴富💖💖💖!!!