搜索资源 | 西班牙语翻译搜索资源

作者:邹林红(广东外语外贸大学 20 级西班牙语口译)
编辑:陈杲

引言

提到 CAT 技术,必须要谈它的两大核心功能:翻译记忆和术语管理。翻译记忆是指将我们翻译的内容“记忆”到数据库里,下次遇到同样的内容,系统会自动译出,避免了重复翻译而导致的时间浪费,这样一来可以大大提升译员的翻译效率。而术语管理是指我们可以将特定的词汇或者我们在翻译中遇上的专业词汇可以保存到术语库里,等到再次相遇时,翻译工具会自动给出提示,免去了我们四处查词或前后翻译不一致的烦恼。

罗马不是一天建成的,能为我们所用的记忆库和术语库也一样,都需要我们长时间投注精力去积累而成,量变引发质变,但我们可以通过巧用搜索术和对齐工具加快建成速度,从而提高翻译效率。

可用于高效建立双语平行语料库的网站

为了充实我们的翻译记忆库,我们可以充分利用可信赖的双语平行语料库以及现成的双语书籍,将收集来的内容进行处理,使其成为能为我们所用的记忆库。

目前汉语和西班牙语平行语料库通常基于英语翻译,两种语言文本直接对比的情况并不常见。据说已经建好了一个名叫"PaChEs"的语料库,而且该语料库使用了叙事、宣传和资讯类文本的片段来确保文本体裁的多样性,但可惜的是我未能成功搜索到,也许是因为没办法科学上网又或是因为该语料库还未向大众开放,具体原因待考证。

但是办法总比困难多,我们可以通过处理已有的双语资源来建立记忆库,可以使用语料对齐工具如 Tmxmall 在线对齐(网页版对齐工具,免安装)、Abbyy Aligner(需下载安装)和 Trados 自带的对齐工具 WinAlign(需下载安装)等。具体操作如下:

1. 选择好语言对,将互为译文的语言材料导入 Abbyy Aligner 进行对齐

2. 部分内容需要手动调整

3. 将对齐后的 TMX 文件导出到本地即可

4. 使用 CAT 软件时,将该 TMX 格式的记忆库导入 CAT 软件

这样记忆库便建成了,以后翻译时碰到类似的语句,会自动显示匹配结果,有利于积累译者的记忆库,提高翻译效率。可供下载双语语料来扩充翻译记忆库的网站:

(一)联合国正式文件系统

联合国正式文件系统

https://documents.un.org/prod/ods.nsf/home.xsp

该文件系统包括了 1993 年以来联合国印发的所有正式文件,并且其早期文件也逐日添加到该系统,还提供从 1946 年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议,包括阿拉伯语、中文、英语、法语、俄语,西班牙语这六种语言。通过筛选可以获得相关文件,点击下载即可,经过再处理后可用于自建记忆库。

具体操作过程(以扩充冠疫情翻译记忆库为例))

1. 随机筛选与新冠肺炎疫情相关的文件,下载“chino”和“español”双语版本

联合国正式文件系统下载语言

2. 放进 Abbyy Aligner 里面作文档对齐处理,具体操作步骤如下:

在 Abbyy 中对齐文档

1. 打开 Abbyy Aligner, 选择好语言对,左边为中文,右边为西班牙语

2. 将文件按语种对应拖进去,再点击“Align”进行文档对齐

3. 检查并调整每一列的内容(删除,剪切)手动对齐。

4. 调整结束后,保存,输出为 TMX

5.  打开 Trados 或者其他 CAT 工具,新建记忆库,然后导入文件即可

(二)国际货币基金组织官网

国际货币基金组织官网

http://www.imf.org/external/spanish/index.htm

可通过更换语言获取不同的译文版本,再通过复制和格式处理我们便可以得到可处理的语料。

(三)European Parliament Proceedings Parallel Corpus

European Parliament Proceedings Parallel Corpus

http://www.statmt.org/europarl/

下载里面的西班牙语对英语的平行语料库,再以英语对汉语的语料库作为辅助

(四)CGNT 西语版

CGNT 西语版

https://espanol.cgtn.com/

另外还可以通过关注 CGNT 西语版的微博和微信公众号获取语料。

(五)人民网西语版

人民网西语版

http://spanish.peopledaily.com.cn/

可以改变语言版本获取双语或多语语料,温馨提示:译文质量参差不齐,公众号的质量更高。语种包括:中文、英语、法语、俄语、西班牙语、日语、阿拉伯语、德语、葡萄牙语。

(六)外交部官网

外交部官网

http://new.fmprc.gov.cn/web/

包括英语、法语、西班牙语、俄语等版本

(七)OLAC Language Resource Catalog 语言资源目录

OLAC Language Resource Catalog 语言资源目录

http://dla.library.upenn.edu/dla/olac/index.html

还有许多网站待发掘,越官方,译文质量相对越高,越具有借鉴性。

(八)网盘搜索资源

此处必须得分享一下如何自给自足免费获取各类资源的方法,尤其是用来搜索网盘内的西汉双语书籍的 pdf 版资源(如今还可以通过一些西语学习的公众号分享资源)推荐一个良心的网站:

网盘搜索

http://hao.misiai.com/#/

通过变换关键词可获取不同种类的资源

三、可用于提高翻译准确性的语料库

在翻译时我们经常会碰到一词多义或一义多词的情况,除了借助专业的电子词典外,我们还可以在语料库里查询有疑问的单词,获取它的常用例句、同义词、以及地区使用频率等。西班牙语作为 21 个国家的官方语言,其多样性随地域而变化,有些单词在西班牙很常见,但到了拉美地区却成了禁忌语,在翻译时遇上某些拿不准的词汇,我们一定要多番考证之后再定夺,除了大型搜索引擎之外,我们还可以求助于以下几个专门的西语语料库。

(一)El Corpus del Español

El Corpus del Español

https://www.corpusdelespanol.org/

西班牙语语料库由两部分组成(具备西班牙语和英语两个版面): 如今该语料库包含 5 个部分,我们将重点介绍一下最新的 WordAndPhrase。

WordAndPhrase 的两大功能:

  • 浏览词频
    看到每个单词的总体频率,以及单词在不同种类的西班牙语中的频率(口语、小说、报纸和学术写作)以及在 21 个不同的西班牙语国家的频率。
  • 联系近义词和相关的文本
    找到这个词的 20-30 个最常见的同义词、200 个或更多的相关的句子、同义词的列表、该单词在网页中出现的其他主题,通过点击可查看相关词的条目。
WordAndPhrase 查询界面

该界面显示检索词在整个四万词频表中的位次、它的词性、定义、在整个语料库中出现的总次数、在四个语料文体(Género:学术、新闻、小说和口语)中分别出现的次数。该功能可用来作为一义多词时选高频词的依据,有助于我们的译文更容易被大众接受。

  分析文本、常用搭配,近义词,主题等:

* HN 的柱形高度最高,说明这个词在洪都拉斯很常用。

(二)CREA Corpus de Referencia del Español Actual

CREA Corpus de Referencia del Español Actual

当代西班牙语参考语料库

http://corpus.rae.es/creanet.html

在“当代西班牙语参考语料库”中查询单词 contingencia

然后进入到查询界面,以单词 contingencia 为例:

搜索栏中输入单词 contingencia,在这个界面当中我们可以看到有许多筛选项,我们可以按照作者、作品、媒体、年代、使用地、主题等进一步筛选。确定好之后,点击 buscar ( 查找 ) 之后会出现一个结果页面,点击 ver estadística(查看统计数据) 和 recuperar(恢复)即可查看统计和查询原文。

CREA 查询选项

在统计页面中我们可以这个单词的使用国家,使用频率,经常出现的语境等等,这些信息都会帮助我们更好地理解这个单词,知道它的使用语境,在常用地等等。在一次性出现例子较多的情况下可以通过限制年代、作者、主题等减少例句数量以查询原文。为查询动词的所有用法可以使用*代替曲折部分。比如输入 trabaj*即可查询 trabajar 的所有变位情况例句

CREA 统计界面

(三)Corpus de aprendices de español (CAES)

西班牙语学习者语料库(CAES)

http://galvan.usc.es/caes/search

它是由具有不同语言能力(《塞万提斯学院课程计划》中适用于西班牙语的《欧洲共同参考框架》A1 至 C1 级)的西班牙语学生编写的书面文本的集合。共包括六个语种:阿拉伯语、汉语、法语、英语、葡萄牙语和俄语。

这是一个可以让西班牙语领域的专业人员(教师、研究人员、评估人员、教材作者、语言中心和机构的负责人和团队等)在坚实和客观的数据基础上进行应用研究的工具,可以提供有关于学习难题、最常见的错误、更多或更少使用的词汇等方面的信息,并且我们很容易能够将这些信息应用于课堂或融入文本中去。在不否认其他此类语料库项目重要性的前提下,CAES 填补了鲁汶大学 ICLE(国际英语学习者语料库)等类似项目在语言学习语料库这一特定领域的重要空白。

其中包含中文语料的情况如下:

CAES 中文语料

具体使用方法点击“ayuda”里面有专门的文件对功能和如何操作做了详细的解说。

(四)Corpus Diacrónico y Diatópico del Español de América

西班牙语学习者语料库(CAES)

http://www.cordiam.org/

(五)Corpus Oral de Español como Lengua Extranjera (ELE)

Corpus Oral de Español como Lengua Extranjera (ELE)

http://cartago.lllf.uam.es/corele/home_es.html

这是西班牙语作为第二外语的口语语料库,包含许多录音、访谈、脚本,可供学习,也能间接帮助翻译,尤其是遇上了对听力理解能力要求较高的口译。

(六)Corpus del Proyecto para el estudio sociolingüístico del español de España y de América

西班牙和美洲西班牙语社会语言研究项目语料库

http://preseea.linguas.net/Corpus.aspx

(七)Corpus oral del español de México (COEM)

墨西哥西班牙语口头语料库

http://lef.colmex.mx/index.php/investigaciones/corpus-oral-del-espanol-de-mexico

(八)Corpus Oral y Sonoro del Español Rural (COSER)

农村西班牙语口语和声音语料库

http://www.lllf.uam.es/coser/index.php

(九)Corpus del Nuevo Diccionario Histórico del Español

《新历史西班牙语词典》语料库

http://www.frl.es/Paginas/Corpusdiccionariohistorico.aspx

随着中国文化走出国门,越来越多具有中国特色的文化需要被翻译。国内西班牙语术语库发展较为缓慢,但我们可以通过借助已经发展较为完善的中英文互译的术语库来弥补。其中值得一提的术语库有:

(十)中国特色话语对外翻译标准化术语库

中国特色话语对外翻译标准化术语库

http://210.72.20.108/index/index.jsp

中国特色话语对外翻译标准化术语库是中国外文局、中国翻译研究院主持建设的首个国家级多语种权威专业术语库。目前,平台发布了中国最新政治话语、马克思主义中国化成果、改革开放以来党政文献、敦煌文化等多语种专业术语库的 5 万余条专业术语,并已陆续开展少数民族文化、佛教文化、中医、非物质文化遗产等领域的术语编译工作。研究过 CATTI 和 MTI 真题的小伙伴对中国特色词汇一定不陌生,命运共同体、互利互惠、科学发展观、简政放权、供给侧改革,这些词汇都是这两个考试中经常出现的明星词汇。

(十一)中国关键词

中国关键词

http://www.china.org.cn/chinese/china_key_words/

“中国关键词”项目是多语种、多媒体方式向国际社会解释、阐释当代中国发展理念、发展道路、内外政策、思想文化核心话语的窗口和平台,是构建融通中外的政治话语体系的有益举措和创新性实践。项目组建了由中央相关部门专家组成的中文编写和多语种外文翻译的专家委员会,邀请了外籍专家参与译文的审稿工作。

(十二)中国核心词汇

中国核心词汇

https://www.cnkeywords.net/

“中国核心语汇”涵盖政治、经济、科技、文化等 12 个热门分类,17 种语言,100 万词条。

(十三)术语在线

术语在线

http://www.termonline.cn/

术语在线(termonline.cn)由全国科学技术名词审定委员会主办,定位为术语知识服务平台。以建立规范术语“数据中心”、“”“应用中心”和“服务中心”为目标,支撑科技发展、维护语言健康。提供术语检索、术语分享、术语纠错、术语收藏、术语征集等功能。该平台聚合了全国名词委会权威发布的审定公布名词数据库、海峡两岸名词数据库和审定预公布数据库累计 45 万余条规范术语。覆盖基础科学、工程与技术科学、农业科学、医学、人文社会科学、军事科学等各个领域的 100 余个学科。

(十四)中华思想文化术语库

中华思想文化术语库

http://shuyuku.chinesethought.cn/

包含中华思想文化术语库、中医文化关键词库、典籍译本库,主要收录“中华思想文化术语传播工程”近几年的最重要成果–中华思想文化术语,目前已收录600 条。这些词条包含中文释义、外文释义、中文引例、中文引例释义和外文引例释义等字段,全部词条都提供中文和英文两个语言版本,并提供对应的专业录音,部分词条还提供西班牙语、尼泊尔语、马来西亚语、波兰语和阿尔巴尼亚语五个语种。精选中医基本术语进行阐释和翻译,每条术语包含术语拼音、术语中文、主语英文、术语中文解释、术语英文解释、术语曾经译法、术语现行译法,术语标准译法、翻译说明以及引例。提供中国传统思想文化典籍的经典外译,均为中英对照,大多典籍提供 3-4 个经典外译版本,为从事翻译和对外文化传播的用户提供更多参考和帮助。目前已包含《论语》《孟子》《老子》《文心雕龙》《黄帝内经》五部典籍,未来还会不断更新。

(十五)联合国术语库

联合国术语库

https://unterm.un.org/unterm/portal/welcome

联合国多语言术语库(UNTERM)是联合国内部官方多语种术语库,收集的词汇主要源于联合国大会、安全理事会、经济及社会理事会、托管理事会等主要机构日常文件。因此它收集的术语主要和各种全球性议题相关,比如气候变化、民主、难民、反恐、可持续发展目标、非殖民化等主题。该术语库最大亮点是内容独一性和权威性,提供联合国 6 种工作语言(英、法、俄、汉、阿、西)的术语对应查询服务。用户不仅能查看某个词汇的词义,还能看到这个术语在联合国内部不同机构出现的频率、在不同主题内容中出现的频率等等。想在外交、公共政策、国际关系等这些领域工作的朋友,这个术语库一定会很用帮助。此外备考 CATTI 考试的同学也可以经常去看看,因为全球性议题的文章经常出现在 CATTI 考试里。

(十六)Linguee

Linguee 搜索

https://cn.linguee.com/

Linguee 是一个在线多语言互译平台,目前提供英语与德、法、西、中、俄、日、葡、意、荷等 24 种语言的对应查询服务,收录了数亿条译文例句搜索。Linguee将查询字典与搜索引擎合二为一,提供更广的搜索空间。搜索结果包含高达一亿多条双语互译的例句。Linguee 提供的现成翻译资料数据不仅庞大而且完整。是目前所有的在线词典的上千倍。所有例句都是完整的句子或者段落。因此,用户可以快捷方便地查询所有搜索词条,包含成语或者俗语的完整意思乃至译文例句,甚至包括专业用语词汇的含义及翻译难点。

(十七)谷歌机器学习词汇表

https://developers.google.com/machine-learning/glossary/?utm_source=google-ai&utm_medium=card-image&utm_campaign=training-hub&utm_content=ml-glossary

Google 相比国内的搜索引擎来说在世界上都是非常有名的,其团队或在技术算法上都远超于国内,Google 项目教育团体官方宣布称已经发布了一种多语种的 Google 机器学习词汇表,它列出了机器学习的一般术语和术语“Tensor Flow” 的定义。语言版本包括西班牙语、法语、韩语和简体中文。

友情提示:查看该术语列表,需要科学上网。

四、结语

以上这些都仅仅只是搜索术的冰山一角,但是关键还是在于能够熟练使用,以求更快建立记忆库和术语库,从而达到为日后的翻译工作省时省力,提高效率。

本文为作者 CAT 课程期末论文,未经作者允许,不得转载。

发表评论

邮箱地址不会被公开。 必填项已用*标注