文本处理
课程简介
文本处理课程主要包含三个部分:
- 编码与格式
编码与格式是我们理解文本处理的基础。了解不同的编码方式,可以知道乱码的原因;知道常用的格式,是掌握各类文本处理的基础。 - 文本转换
文本转换主要涉及格式转换与光学字符识别(Optical Character Recognition,OCR),可以将不可编辑的图片文本转换为可编辑的文本,方便做复制、粘贴、编辑等操作。 - 文本处理
文本处理部分主要涉及 Word 中使用的通配符和 EmEditor 等工具中使用的正则表达式,使我们能够批量处理文本转换后出现的问题。
不论是正则表达式还是通配符,本质上都是限定字符的功能,帮助我们匹配某一类型的文本,方便查找、替换等批量处理。例如,在启用通配符的情况下,我们可以输入 [a-z] 匹配所有小写字母,输入 [A-Z0-9] 匹配所有大写字母和阿拉伯数字。
务必记住,在导入 CAT 工具中进行翻译前,务必将格式处理清楚,不要将 PDF、图片、直接转换但未处理的文件导入工具中使用,避免事倍功半。
本课专题
10 课时
编码与格式转换
文本转换
正则表达式基础应用
通配符基础应用
关于教员
15 课程
811 个学生