- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
正则表达式在外语教学及研究中应用
正则表达式在外语教学及研究中应用
摘要:正则表达式的应用贯穿于基于语料库的外语研究与教学实践,从语料准备、语料标注、到建库、库文件管理、语料检索都离不开这种功能强大的形式语言。研究通过示例介绍了正则表达在语料处理、语料库课堂教学及基于语料库的个性化研究的三个主要方面的应用,并针对初学正则表达式的外语研究、教学人员给出了编写建议。
关键词:正则表达式;语料库;检索;编写原则
中图分类号:G434文献标识码:A文章编号:1672-7800(2011)01-0186-03
作者简介:袁煜(1978-),男,湖北荆门人,硕士,南京信息工程大学语言文化学院讲师,研究方向为翻译研究、语料库语言学。0引言
电脑技术和因特网的普及使许多研究者可以在很便捷地获取大量语料,创建自己的各种单语、多语、平行甚至对比语料库。但是在笔者自己的建库实践过程中发现,很多原始文本常常包含大量噪音(各种不需要的符号、内容及格式等),典型的问题就是文本中含有大量空白字符、换行符、中英文加杂、格式不整齐。要对大量文本中类似问题进行处理,简单的文本查找和替换(如Word中的查找和替换操作)显然不能满足要求,但是这些任务却可以由正则表达式来帮助我们完成。
下面我们结合实例情况来说明正则表达式在语料库建库、标注等预处理中的应用。
1利用正则表达式清除文本噪声
以一例未处理原始语料作为说明。我们可以看出该语料中存在大量空行、换行符、还有些以连续虚线作的分界符等。对《论语》中的一个章节、一个段落我们当然可能以手工很快清除,但是对于一部完整的、甚至是多种版本的《论语》如果没有电脑辅助而采取纯手工清除文本噪声,那将是不可思议的。
文本编辑软件EditPad Pro与PowerGrep⑤同属JGSoft产品,很多程序员和计算语言学专家、研究者对该这两项产品再熟悉不过了。EditPad Pro强大的支持正则表达式能力,使它在文本处理程序中独树一帜。我们用正则表达式在EditPad Pro中对它进行降噪。
第一步:删除文本内多余空行及换行符,使文本按自然段显示。这时我们按第2节中提及的表达式在EditPad Pro中输入查找对话框输入“^(.*)$[\\r\\n]?”,替换栏输入“\\1 ”,如图1就可得到我们想要的结果。
该表达式中“^(.*)$”的意义表示另一起行开始至该行末,而表达式“[\\r\\n]?”则表示行末后的换行符, “\\1 ”表示替换的内容为第一个命名捕获组内(从左到右分别为\\1\\2\\3…)的内容,外加一空格。
第二步:清除行首、行尾多余空格,对齐文本。同样在查找对话框输入“^[\\t]+|[\\t]+$”,替换一栏输入为空,就可以清除行首行尾的多余空格。表达式 “^[\\t]+”表示位于行首的任意个空格字符,而“[\\t]+$”表示位于行尾的任意个空格字符,管状符“|”表示选择即无论行首或行尾的空格都去掉。
图1清除噪声后的语料
第三步:清除文本中其他字符(各种特殊标记符及不需要文字部分)。本语料片断中只有 “-”一种符号,但是其他各种符号都有可能出现在语料中,如“@, #,%,$,,■,【,】…”等诸多符号,在我们收集和加工语料时经常见到。有的出现非常有规律,编写表达式也较容易一些,有的杂乱、散部全文,编写正则表达式则相对较难。针对本样本,我们只需查找对话框内输入 “-”,并替换为空则万事大吉。但是常常我们的语料是中英文夹杂,中英文标点符号混用,而我们却只需要其中的英文或中文语料怎么办呢?如下例:
同_p 上述_b 有关_vn 的_u 第二_m 个_q 历史性_n 工程_n ,_w 就是_v 在_p 团结_a 的_u 非洲_ns 大陆_n 上_f 建立_v 坚强_a 的_u 制度_n 体系_n ,_w
Political_JJ ,_, economic_JJ and_CC social_JJ institutions_NN2 at_II national_JJ ,_, regional_JJ and_CC continental_JJ level_NN1 ..._...
即_v 国家_n 级_q 、_w 地区_n 级_n 和_c 大陆_n 级_q 的_u 政治_n 、_w 经济_n 和_c 社会_n 机制_n 。_w ⑥
用文本编辑软件EditPad打开需要处理的语料库文档,在查找框中输入表达式“()|_\\w+|[a-zA-z]|[]|[,.?:;’’!””-…]|(-{2})”,并替换为空则可将所有英文及词性标注清除。上述表达式分成6个部分, “()”表示所有形如“”句首标记部分,“_\\w+”部分表示所有词
您可能关注的文档
最近下载
- MX480路由器操作手册.doc VIP
- 医学课件-神经内科常见病.pptx VIP
- 电子支付与网络金融复习资料.doc VIP
- 2025年项目管理公司组织架构、岗位、职能设置方案.pdf VIP
- 2024安徽长丰科源村镇银行员工招聘20人笔试历年典型考题及考点剖析附带答案详解.docx VIP
- 普通心理学第五版PPT完整全套教学课件.pptx VIP
- 2023安徽长丰科源村镇银行招聘5人笔试历年典型考题及考点剖析附带答案详解.docx VIP
- 《GBT13341-1991-质量损失率的确定和核算方法》.pdf
- 节约用水条例培训解读课件.pptx VIP
- 山东省临沂市蒙阴县第一中学2024-2025学年高三下学期第三次模拟考试语文试题(含答案).pdf VIP
原创力文档


文档评论(0)