语料库 | 个人中英双语口语语料库制作与应用

作者:周梓泓(广东外语外贸大学高级翻译学院翻译 1701 班)
编辑:陈杲

项目简介:

中译英过程中常常碰到一些词汇,通过普通词典难以查得,如果能够利用英译中的语料库查得,译文通常会更地道。

通过下载收集、筛选清洗、汇合整理中英双语的电影电视剧字幕文件(*.srt、*.ass),再利用 Search and Replace 软件对文件内文本的搜索功能,即可制作出简易方便、小巧灵活的个人中英双语口语语料库,填补了语言环境匮乏的缺陷,对个人翻译学习的效率和质量带来显著提升。

项目过程:

7月12日,星期六

灵机一动,想法诞生:既然 SRT 和 ASS 文件可以用记事本打开,那么网上有各种各样,并不断出新的英美电影和电视剧的字幕,意味着有巨大的、现成的、多主题的中英口语平行文本。只要认真整理,必然能够做出一个双语口语的语料库来,大大促进平时的英语口语学习!

想起之前见过我院王华树老师出过技术翻译的教材,所以决定购买一本介绍制作语料库的翻译技术教材,但网上搜了一下发现都缺货,于是在微信上询问了教我计算机辅助翻译课程的陈杲老师,看有没有购买渠道。

最意外和惊喜之处是,老师没有简单地就转发给我一条购买链接,而是先十分耐心仔细地询问我的目的和想法,发现我里心想的大项目,其实用一些 Word 文档的功能似乎就可以简单地实现了,并推荐了 Listary、Search and Replace、人人词典这些和我的想法相关的工具和网站。

这时,我尝试了:

  • 在 Word 文档建立表格
  • Listary 搜索
  • 人人词典搜索

对应的问题为:

(1)字幕文件不单纯只有台词,还有很多其他的元素,台词也不是完美平行,比如一句英文可能有两句中文,用 Word 文档建立表格需要投入大量的时间和精力对语料进行清洗,处理一集的字幕尚且如此,若要建成一个可用有效的语料库,需要大量不同的电影电视剧的字幕,而此时可以预想凭自己一人单薄的力量,是绝对无法、也不值得去完成的。

(2)Listary,轻便且强大的文件搜索工具,但只能定位文件,没有界面呈现文件里面的内容,不符合语料库的功能目的。

(3)人人词典将人人字幕组积累十年的原创双语字幕与词典工具结合,可以提供图文并茂的原声场景以及上下文。可以说人人词典几乎正是我想做的事情,完全可以达到我的目的,之前居然从来没听到有人推荐过。然而,我认为它有以下缺点:

  1. 需要上网,不能离线使用;
  2. 原始语料不在自己手上,无法对语料补充更新;
  3. 功能有局限,比如最多只能显示6条场景例句,无法对比词频,又比如只能搜索单个单词,不能搜索一个短语或短句,无法了解除单词外的其他表达在英语口语语境中如何应用。

短暂的实践后,因为当时那个星期要准备期末考,于是我的小项目就先停下了。

用 Word 和 Excel 清理汇总当然好看,但要花费大量时间精力

7月18日,星期五

终于度过考试周,激动地重启我的项目!

尝试陈杲老师推荐的 Search and Replace 这款软件,谁知道一击即中。十分幸运,已经完美达到了我想要的效果,即:

  1. 能同时显示中英文本;
  2. 能显示出处,是哪一个字幕文件,具体对应视频的第几分钟,方便下载原视频查看学习;
  3. 能显示上下文;
  4. 能显示搜索结果,即词频;
  5. 一键傻瓜式操作,按一下回车,便可以静候佳音。
今天9月10日,我用 Search and Replace 搜索“套路”的结果界面
对比人人词典仅有的6条场景例句,我的语料库用法丰富很多

然而,在初期要做的工作还有很多,比如:

(1)下载字幕文件时的机械劳动

在一个星期的时间内,不定时段一天抽出2-3个小时,收集字幕下载网站“字幕库”中“电影字幕”与“美剧字幕”两个栏目1-50页中的中英双语字幕。不过不可能50个页面里面的每一条都下载,我的策略是——Ctrl + F, 搜索关键字“全”,带“全”字的条目里,下载的一个压缩包里就包含了这个电视剧某一季全部集数的字幕,节省下大量筛选和整理的时间。即便如此,也要点完50页,点完里面的下载按钮,识别弹出的网页,再点真正的下载按钮,选择保存……

下载工作可以考虑使用 Python 或“八爪鱼采集器”完成。

陈杲

(2)清理字幕文件的繁琐

面对多种的字幕文件,我们只需要一种字幕文件,即“简英.ass”或者“简英.srt”。但很多时候,打包下载的字幕文件包含多种语言组合“简英”“繁英”“简”“繁”“英”。于是,明明是同一集的字幕,就可能有5个文件。还有的时候,不仅有 ASS,还有 SRT,于是数量又翻一倍,因为我们只需保存其中一种,否则搜索时会出现重复。出现这种情况,我的策略是——在文件夹里搜索“简英 ASS”或者“中英 ASS”或者将 ASS 替换为 SRT,再将呈现出来的搜索结果复制,然后在同一个文件夹里新建文件夹,把我们需要的复制好了的文件放进去,然后把新建文件夹外的全部删掉。

(3)字幕网站一次能收集的文件数量有局限

因为点开“美剧字幕”,字幕网站只能按上传时间的顺序查看下载50页,这50页里面并不包含所有的英美剧,只包含近期最新上传的字幕文件。《老友记》《老爸老妈浪漫史》《绝望主妇》这些现在不更新的经典就不会出现在这50页里面。所以,我还有一个工作就是去搜索“好看的美剧”“好看的英剧”,然后把大家推荐的剧集去一个个输入搜索框,精准搜索,然后再下载下来。

7月20日—7月25日

  1. 不定时去下载、清理、积累字幕文件,同时上传百度网盘备份;
  2. 每天多用 Search and Replace 进行搜索,学习的同时,查看字幕文件是否清理干净;
  3. 体验 Search and Replace 的搜索工具栏,比如:是否区分大小写,是否按完整字段搜索,是否使用正则表达式,是否忽略空白。
Search and Replace的工具栏,时不时的确会用上

到此为止,个人自用英语口语语料库的建设就算是大功告成了,暂时没发现还有需要提升的体验,满意!谢谢老师!!

成果展示:

“素颜”,我的语料库有4条结果,3种不同的表达法
人人词典,1条结果,1种表达
人人词典无法查到“hell and back”
“hell and back”,人人词典无法进行搜索,自建语料库有15条结果
自建语料库查询“hell and back”并查看上下文
自建语料库亦可查看上下文

最后下面再举一个例子,“网红”

自建语料库搜索“网红”的结果 1
自建语料库搜索“网红”的结果 2
自建语料库搜索“网红”的结果 3
自建语料库搜索“网红”的结果 4
使用人人词典搜索“网红”

当然,字幕组并不是人人都是翻译专家,译文有时不准确,有时生硬,有时又为了迎合观众而发挥太多,使用时需要甄别。但是必须感谢各字幕组的伟大无私的贡献,为我们影迷剧迷打开一扇新世界的大门,启蒙我的英语学习,并使之变得妙趣横生。

2人评论了“语料库 | 个人中英双语口语语料库制作与应用”

  1. 哇!这位同学真是把我脑海中的想法变成了现实,一直都想建一个在线可以实时共享的个人语料库,之前尝试过在“射手网”下载字幕文件,再通过王华树老师讲的word“文字转表格”功能处理好字幕文件保存在本地,需要用的时候去搜索。一直都想着如何改进但苦于换了苹果OS系统没有对应的小软件,尝试装虚拟机但未成功,唉,王华树老师讲的很多功能真的非常实用,像我做字幕经常是围绕一两个明星的相关内容,如果可以建一个一个人为中心的语料库,那么对字幕组来说真的是很大的帮助,而且是真的学习翻译的好方法。词本无意,意由境生,同一个词千变万化的丰富内涵无法通过字典词典查到,只能在不断积累的具体场景中窥见,而语料库正是实现这个功能的不二之选,哈哈,说了太多,很激动。希望自己忙完论文开题工作后也能再次重启自己的语料库项目,哈哈哈

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注