文本处理

课程简介

文本处理课程主要包含三个部分:

  • 编码与格式
    编码与格式是我们理解文本处理的基础。了解不同的编码方式,可以知道乱码的原因;知道常用的格式,是掌握各类文本处理的基础。
  • 文本转换
    文本转换主要涉及格式转换与光学字符识别(Optical Character Recognition,OCR),可以将不可编辑的图片文本转换为可编辑的文本,方便做复制、粘贴、编辑等操作。
  • 文本处理
    文本处理部分主要涉及 Word 中使用的通配符和 EmEditor 等工具中使用的正则表达式,使我们能够批量处理文本转换后出现的问题。
    不论是正则表达式还是通配符,本质上都是限定字符的功能,帮助我们匹配某一类型的文本,方便查找、替换等批量处理。例如,在启用通配符的情况下,我们可以输入 [a-z] 匹配所有小写字母,输入 [A-Z0-9] 匹配所有大写字母和阿拉伯数字。

务必记住,在导入 CAT 工具中进行翻译前,务必将格式处理清楚,不要将 PDF、图片、直接转换但未处理的文件导入工具中使用,避免事倍功半。

本课专题

10 课时

编码与格式转换

文本转换

正则表达式基础应用

通配符基础应用

关于教员

0 (0 个评价)

15 课程

694 个学生

文本处理
内部公开