Skip to content

App10 - 视频转写工具

核心价值

本地GPU加速的视频/音频转文字,充分利用4090算力。

性能参考

使用RTX 4090 + Whisper large-v3:

视频时长处理时间速度倍率
5 分钟~30 秒10x
30 分钟~3 分钟10x
1 小时~6 分钟10x

核心功能

语音识别

  • 支持视频:MP4, AVI, MKV, MOV
  • 支持音频:MP3, WAV, FLAC
  • 多语言:自动检测中/英/日/韩

字幕生成

  • SRT格式带时间戳
  • 可导出纯文本

内容整理

  • LLM驱动的摘要
  • 要点提取

技术栈

  • 语音识别:OpenAI Whisper (large-v3)
  • 视频处理:FFmpeg
  • 后端:FastAPI
  • 部署:Docker + NVIDIA GPU

配置

环境变量默认值说明
WHISPER_MODELlarge-v3模型大小
WHISPER_DEVICEcuda计算设备
MAX_FILE_SIZE_MB500最大文件