作者:袁泉(北京外国语大学 19 级德语口译 MTI)
编辑:陈杲、余恬蕙
项目简介
在日常学习的过程之中,会接触到一些双语的材料,如果能自建语料库,对德语学习的帮助很大。选择新闻题材是因为,在复习备考专八考试的过程中,这类材料是接触最频繁的,是最常见的听力练习素材。新闻语言具有规范工整的特色,因此在学习这类材料的过程中,常用的一些动词和搭配具有很好的积累价值。同时,当积累达到一定数量之后,在遇到相似新闻反复出现的情况下,可以利用检索的功能,针对相似的表达找到多种合适的翻译方案。本文将介绍自建新闻德语语料库的方法。
项目过程
第一步:收集双语文本
最常作为听力练习的材料来自欧路词典开发的“每日德语听力”软件,还有一些公众号会提供一些中德双语的文本材料,如:like 德语,人民网德语视界,歌德学院等等,另外在新闻官网,如:tagesschau.de, DW (Deutsch Welle) 可以找到原版的练习视频,但这类材料往往是单语的,并不适合作为语料库素材,因此本文将以每日德语听力软件为例,展示建立语料库的方法。选择的频道是 DW 新闻,2020年12月份中十天的新闻稿。
a) 直接复制粘贴
这一频道是附带双语文本,并且排列整齐的,因此非常适合学习并整理成语料库。
打开相应的频道,选中需要的文本,并复制。如果直接复制到 word 文档,会默认复制格式。因此要在粘贴选项中选择合并格式或仅粘贴文本。
b) 导出 pdf 版本,转为 word 文档或文字识别
编辑注:这一步骤为联系 PDF 转化使用,实际操作中不必如此使用。
将导出的 pdf 文档用 ABBYY FineReader 软件转换为 word 文档,进行去空行处理。
得到 word 文档后,利用查找替换去空行。
第二步: 利用 word 分开中德文文本
点击“插入”,选择表格下标中的“文本转换成表格”,文字分隔位置选择段落标记,列数选择2列。得到下图文本,这时德语文本和中文文本被分开,分别复制粘贴并保存在两个 word 文档之中即可。
第三步:使用 ABBYY Aligner 对齐文本
打开 Aligner 并新建项目,选择语言对后分别导入德语和汉语的 Word 文档。可以直接拖入空白处,也可点击文件夹图标通过路径导入。
点击“Align”图标,对齐文本,橙色部分代表切分不太完整的,需要手动调整,大多数情况是原文中的序数词末尾带有句号。merge 合并,split 切分,up 前移,操作醒目简单。
第四步:导出为 .tmx 格式文件,利用 memoQ 导入翻译记忆库
选择 File,Export,导出将文件导出为 tmx 格式,保存在相应的路径之中,再用 memoQ 打开。
在 memoQ 中输入关键词,比如“德国“ “Impfung”,即可找到相关的句子,将相关的新闻都串联起来。
项目总结
语料库的建立是一个需要长期积累的工作,此次建立语料库的项目只是一个初步过程,还存在一些问题以及进步空间,还需要日后长期摸索来完成更加精细的工作。最主要的是此次项目中检索的功能并未完全达到作者预期,这可能是因为选材体量很小,无法达到这一水平。作者之前在学习过程中使用最上手的是 Microsoft News 德语版的关键词检索功能,输入一个关键词便可以自动整合多家媒体以及多时间段的新闻,并且可以持续地跟踪,如下图所示。但是作为归纳整理日常学习资料的工具,这样整理的语料库是完全够用的,希望通过积累,能够得到更多收获。
本文为作者 CAT 课程期末论文,未经作者允许,不得转载。
编者注:要对语料做初步处理,可以使用斑斓科技小助手,若要进一步完成对齐并导出 TMX 格式,可使用“金声语料对齐助手”在线完成对齐,该工具支持每日下载三次。