语音识别 | ASR 工具 Whisper 的法语识别效果测评

这学期 CAT 课程学习中,字幕翻译部分引起了我比较大的兴趣,与陈老师交流后老师给我推荐了 OpenAI 最近开发的 ASR(自动语音识别)软件 Whisper。在查阅资料后,我发现这一软件的识别效果据说达到了人类水平,且可以识别不同口音,这让我十分好奇,并决定进行测评。作为口译专业的学生,我们平时练习中会接触到大量的视频音频,制作听力文本可以方便我们复习回顾,有时老师也会提供听力文本帮助大家理解,使用 ASR 工具可以让这项工作事半功倍。另外,字幕翻译也是我们学习和工作中可能遇到的翻译类型,在制作视频字幕时,第一步常常要对视频进行语音识别,ASR 工具的使用大有裨益。本文将记录 Whisper 的安装方法(包括 Python、PyTorch、git 和 ffmpeg 的具体安装方式),测评其在特殊口音、背景噪声和技术术语方面法语语音识别效果,并比较 tiny、base 和 medium 三个模型的识别能力,测评部分将使用讯飞的语音识别工具进行对照。