语料库 | 自建新闻德语语料库

作者:袁泉(北京外国语大学 19 级德语口译 MTI)

编辑:陈杲、余恬蕙

项目简介

在日常学习的过程之中,会接触到一些双语的材料,如果能自建语料库,对德语学习的帮助很大。选择新闻题材是因为,在复习备考专八考试的过程中,这类材料是接触最频繁的,是最常见的听力练习素材。新闻语言具有规范工整的特色,因此在学习这类材料的过程中,常用的一些动词和搭配具有很好的积累价值。同时,当积累达到一定数量之后,在遇到相似新闻反复出现的情况下,可以利用检索的功能,针对相似的表达找到多种合适的翻译方案。本文将介绍自建新闻德语语料库的方法。

项目过程

第一步:收集双语文本

最常作为听力练习的材料来自欧路词典开发的“每日德语听力”软件,还有一些公众号会提供一些中德双语的文本材料,如:like 德语,人民网德语视界,歌德学院等等,另外在新闻官网,如:tagesschau.de, DW (Deutsch Welle) 可以找到原版的练习视频,但这类材料往往是单语的,并不适合作为语料库素材,因此本文将以每日德语听力软件为例,展示建立语料库的方法。选择的频道是 DW 新闻,2020年12月份中十天的新闻稿。

a) 直接复制粘贴

这一频道是附带双语文本,并且排列整齐的,因此非常适合学习并整理成语料库。

打开相应的频道,选中需要的文本,并复制。如果直接复制到 word 文档,会默认复制格式。因此要在粘贴选项中选择合并格式或仅粘贴文本。

图1 选中文本
图2 直接复制的效果
图3 选择合并格式
图4 最终效果

b) 导出 pdf 版本,转为 word 文档或文字识别

编辑注:这一步骤为联系 PDF 转化使用,实际操作中不必如此使用。

图5 将 PDF 转换为 word

将导出的 pdf 文档用 ABBYY FineReader 软件转换为 word 文档,进行去空行处理。

图6 利用 FineReader进行转换
图7 对 word 文档进行去空行编辑

得到 word 文档后,利用查找替换去空行。

图8 不使用通配符的情况
图9 使用通配符的情况

第二步: 利用 word 分开中德文文本

点击“插入”,选择表格下标中的“文本转换成表格”,文字分隔位置选择段落标记,列数选择2列。得到下图文本,这时德语文本和中文文本被分开,分别复制粘贴并保存在两个 word 文档之中即可。

图10 原文档
图11 分列后的文档

第三步:使用 ABBYY Aligner 对齐文本

图12 在 Aligner 内新建项目

打开 Aligner 并新建项目,选择语言对后分别导入德语和汉语的 Word 文档。可以直接拖入空白处,也可点击文件夹图标通过路径导入。

图13 选择语言对及文档

点击“Align”图标,对齐文本,橙色部分代表切分不太完整的,需要手动调整,大多数情况是原文中的序数词末尾带有句号。merge 合并,split 切分,up 前移,操作醒目简单。

图14 进行文本对齐
图15 标橙文本
图16 点击 merge 合并

第四步:导出为 .tmx 格式文件,利用 memoQ 导入翻译记忆库

选择 File,Export,导出将文件导出为 tmx 格式,保存在相应的路径之中,再用 memoQ 打开。

图17 导出 tmx. 格式文件
图18 使用 memoQ 打开
图19 输入关键词

在 memoQ 中输入关键词,比如“德国“ “Impfung”,即可找到相关的句子,将相关的新闻都串联起来。

项目总结

语料库的建立是一个需要长期积累的工作,此次建立语料库的项目只是一个初步过程,还存在一些问题以及进步空间,还需要日后长期摸索来完成更加精细的工作。最主要的是此次项目中检索的功能并未完全达到作者预期,这可能是因为选材体量很小,无法达到这一水平。作者之前在学习过程中使用最上手的是 Microsoft News 德语版的关键词检索功能,输入一个关键词便可以自动整合多家媒体以及多时间段的新闻,并且可以持续地跟踪,如下图所示。但是作为归纳整理日常学习资料的工具,这样整理的语料库是完全够用的,希望通过积累,能够得到更多收获。

图20 Microsoft News 德语版的关键词检索功能

本文为作者 CAT 课程期末论文,未经作者允许,不得转载。

编者注:要对语料做初步处理,可以使用斑斓科技小助手,若要进一步完成对齐并导出 TMX 格式,可使用“金声语料对齐助手”在线完成对齐,该工具支持每日下载三次。

发表评论

邮箱地址不会被公开。 必填项已用*标注