ASR

语音识别 | ASR 工具 Whisper 的法语识别效果测评

翻译技术 / 2023 年 12 月 14 日 2023 年 12 月 15 日 / ASR, OpenAI, STT, 翻译技术, 语音转文字

这学期 CAT 课程学习中，字幕翻译部分引起了我比较大的兴趣，与陈老师交流后老师给我推荐了 OpenAI 最近开发的 ASR（自动语音识别）软件 Whisper。在查阅资料后，我发现这一软件的识别效果据说达到了人类水平，且可以识别不同口音，这让我十分好奇，并决定进行测评。作为口译专业的学生，我们平时练习中会接触到大量的视频音频，制作听力文本可以方便我们复习回顾，有时老师也会提供听力文本帮助大家理解，使用 ASR 工具可以让这项工作事半功倍。另外，字幕翻译也是我们学习和工作中可能遇到的翻译类型，在制作视频字幕时，第一步常常要对视频进行语音识别，ASR 工具的使用大有裨益。本文将记录 Whisper 的安装方法（包括 Python、PyTorch、git 和 ffmpeg 的具体安装方式），测评其在特殊口音、背景噪声和技术术语方面法语语音识别效果，并比较 tiny、base 和 medium 三个模型的识别能力，测评部分将使用讯飞的语音识别工具进行对照。

登录