文本处理
课程简介
文本处理课程主要包含三个部分:
- 编码与格式
编码与格式是我们理解文本处理的基础。了解不同的编码方式,可以知道乱码的原因;知道常用的格式,是掌握各类文本处理的基础。 - 文本转换
文本转换主要涉及格式转换与光学字符识别(Optical Character Recognition,OCR),可以将不可编辑的图片文本转换为可编辑的文本,方便做复制、粘贴、编辑等操作。 - 文本处理
文本处理部分主要涉及 Word 中使用的通配符和 EmEditor 等工具中使用的正则表达式,使我们能够批量处理文本转换后出现的问题。
不论是正则表达式还是通配符,本质上都是限定字符的功能,帮助我们匹配某一类型的文本,方便查找、替换等批量处理。例如,在启用通配符的情况下,我们可以输入 [a-z] 匹配所有小写字母,输入 [A-Z0-9] 匹配所有大写字母和阿拉伯数字。
务必记住,在导入 CAT 工具中进行翻译前,务必将格式处理清楚,不要将 PDF、图片、直接转换但未处理的文件导入工具中使用,避免事倍功半。
本课专题
10 课时
编码与格式转换
文本转换
正则表达式基础应用
通配符基础应用
关于教员
广州斑斓科技有限责任公司总经理,全国翻译专业学位研究生教育兼职教师,广东外语外贸大学高级翻译学院翻译学科实践教育基地创新创业行业导师,江西理工大学校外硕士生导师,北外佛山研究生院、广外西语学院兼职翻译技术教师,世界翻译教育联盟翻译技术课程专家。
13 课程
494 个学生