如何将whisper语音转文字并添加中英文字幕到视频配置中?

摘要:本文较为详细的介绍了OpenAI的开源语音转文字模型Whisper基本情况及安装过程,并介绍了它在处理音视频文件中语音时各种参数的详细用法,最后还介绍了如何使用python语言对该模型进行调用。
1 简介及安装 1.1 简介 Whisper是由OpenAI训练并开源的通用语音识别模型,它在英语语音识别的稳健性和准确性方面已接近人类水平。 Paper:https://cdn.openai.com/papers/whisper.pdf Code:https://github.com/openai/whisper Blog:https://openai.com/blog/whisper Whisper 是一种自动语音识别 (ASR) 系统,根据从网络收集的680,000小时多语言和多任务监督数据进行训练。使用这种大规模且多样化的数据集,能够提升模型在口音、背景噪音及专业术语方面的稳健性。此外,该模型还支持多种语言的转录,以及将这些语言翻译成英语。Whisper架构是一种简单的端到端方法,实现为编码器-解码器转换器。输入音频被分成30秒的块,转换为对数梅尔频谱图,然后传递给编码器。解码器经过训练,可以预测相应的文本标题,并与特殊的令牌混合使用,这些令牌指导单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。Whisper 的音频数据集中约有三分之一是非英语内容,模型在训练时会交替执行两个任务:将音频转录为原始语言,或翻译成英语。更为详细信息请阅读论文及博客。 1.2 安装 1. 安装ffmpeg ffmpeg可以很方便的处理各种音视频文件,在识别视频相应语音内容时需要该库的支持,可参考文中本文最后第2项博客,下载预编译版本ffmpeg并配置环境变量,最终如在命令行下可以直接查看ffmpeg版本信息说明安装成功。 2. 创建新的conda环境 whisper官网指出项目兼容3.8-3.11,这里安装的是3.10 conda create -n whisper python=3.10 -y conda activate whisper 3.安装PyTorch 如果没有GPU则安装CPU版本torch conda install -c pytorch pytorch torchvision torchaudio cpuonly -y 如果有GPU则根据相应驱动版本安装合适的torch版本, pip install torch==2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 注意,这里只需指定torch版本即可,torchvision/torchaudio版本在安装时会自动匹配,安装完成后可以使用如下脚本测试环境: import torch print("Torch version:", torch.__version__) print("CUDA available:", torch.cuda.is_available()) print("CUDA version used by PyTorch:", torch.version.cuda) print("Device:", torch.device("cuda:0" if torch.cuda.is_available() else "cpu")) 从图中可以看出torch使用的CUDA版本12.4是小于PC上实际安装的CUDA版本12.8,这是因为一般软件都保持向下兼容,所以12.8是兼容12.4的,所以即便是torch使用的CUDA版本稍低也没有问题。 4. 安装Whisper 使用如下命令进行安装 pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple 安装完成后可以查看whisper帮助信息: 以下是本人环境中所安装的所有python库,如果在使用whisper中遇见问题时可以参考安装: 2 实际应用 2.1 模型说明 最新版本的whisper提供了6种模型,其中4种还提供了只支持英文的版本,各种模型在速度和精度上做出了相应的权衡。以下是可用模型的名称及其相对于大型模型的近似内存要求和推理速度,表中的相对速度是通过在A100上转录英语语音来测量的,真实世界的速度可能会因许多因素而显著变化,包括语言、说话速度和可用硬件。 仅用于英语应用程序时,.en模型往往表现更好,特别是对于tiny.en和base.en模型。据官方观察,对于small.en和medium.en模型,差异并不是那么显著。此外,turbo模型是large-v3的优化版本,可提供更快的转录速度,同时将准确性降低到最低限度。
阅读全文