利用Word通配符替换功能实现汉英混排文档的提取.doc

利用Word通配符替换功能实现汉英混排文档的提取.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用Word通配符替换功能实现汉英混排文档的提取

中英文混排Word文档中分离中英文的编辑 在工作中有时需要将中英文平行语料保存为独立文件,作为翻译记忆库或平行语料库的原始素材。由于原始本文编辑不规范,如中英文标点混用,以及某些特殊情况,如汉字段落以数字或符号开头,因此仅仅通过简单的替换指令无法完成分离工作,甚至会误删除文本。所以在中英文混排Word文档中分离中英文的编辑需要事先对原始文档进行细致的分析,再利用通配符设计替换指令。最大程度上简化编辑工作和误操作。 以201年政府工作报告中英对照版文档为例(在百度文库下载) 源文件字数统计: 第一步:清除段落间重复段落标记(将两个和两个以上的段落标记,即回车符,只保留一个。多次操作,直到无替换为止。目的是防止第二步替换操作时误删除汉字段落。) 第二步:删除非汉字段落(仅操作一次以防误删除汉字段落): 清除段落中(两个回车键之间)所有以非汉字(除ASCII码1-127外还包含不间断空格(^s)、短划线(^=,)等符号开始的字符串; 如遇到以数字或英文符号开始的情况,检查第五个字符。如果为汉字,将保留该段落。以防止诸如以年代或数字开头的汉字段落被误删除。比如,以“2015年我国”开头的句子。) 第三步:清除不间断空格(多次操作直到无替换为止) 操作前: 替换指令: 操作后: 第四步:清除段落间多余段落标记(将两个和两个以上的段落标记,即回车符,只保留一个。多次操作,直到无替换为止。) 比较操作前后两次统计结果: 操作后: 中英文混排Word文档去除汉字编辑 第一步:去除文中所有以汉字开头的段落; 操作后:短中文段落未能去除。 第二步:手工去除短中文段落; 第三步:去除不间断空格 第四部:删除多余回车符

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档