Appearance
App10 - 视频转写工具
核心价值
本地GPU加速的视频/音频转文字,充分利用4090算力。
性能参考
使用RTX 4090 + Whisper large-v3:
| 视频时长 | 处理时间 | 速度倍率 |
|---|---|---|
| 5 分钟 | ~30 秒 | 10x |
| 30 分钟 | ~3 分钟 | 10x |
| 1 小时 | ~6 分钟 | 10x |
核心功能
语音识别
- 支持视频:MP4, AVI, MKV, MOV
- 支持音频:MP3, WAV, FLAC
- 多语言:自动检测中/英/日/韩
字幕生成
- SRT格式带时间戳
- 可导出纯文本
内容整理
- LLM驱动的摘要
- 要点提取
技术栈
- 语音识别:OpenAI Whisper (large-v3)
- 视频处理:FFmpeg
- 后端:FastAPI
- 部署:Docker + NVIDIA GPU
配置
| 环境变量 | 默认值 | 说明 |
|---|---|---|
WHISPER_MODEL | large-v3 | 模型大小 |
WHISPER_DEVICE | cuda | 计算设备 |
MAX_FILE_SIZE_MB | 500 | 最大文件 |