- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本分析工具PatCount在外语教学与研究中应用
文本分析工具PatCount在外语教学与研究中应用
摘 要: PatCount是由北京外国语大学中国外语教育研究中心语言工程研究室最近开发的一种免费文本分析工具。由于这种工具合理地利用了功能强大的正则表达式引擎,可以根据使用者的需要,对大量文本中的词汇、句法甚至语篇层面上的多种语言特征进行有效的分析和统计,因而在外语教学和研究领域具有广阔的应用前景。本文主要介绍这种文本分析工具的基本功能,并对该软件在外语教学和研究领域的应用进行简要说明。?ス丶?词: PatCount;文本分析;外语教学;模式??
中图分类号:H319.3[KG4]文献标识码:A[KG4]文章编号:1001-5795(2008)05-0071-0006?お?
近年来,随着计算机技术的发展和自然语言处理技术的不断进步,各种文本分析工具应运而生。自以处理文本见长的计算机汇编语言Perl(Practical Extraction and Report Language)问世以来,各种文本分析工具更是层出不穷,且功能越发强大,源代码开放程度不断提高。受英语词汇处理软件Range(Nation, 2001)的启发,同时出于外语教学和研究的需要,北京外国语大学中国外语教育研究中心语言工程研究室研究开发了一种新型文本分析工具PatCount,可以很方便地根据使用者的需要和设定,统计大批量文本中的各种语言特征出现的频率,如各种由用户自定义的词汇、短语、被动语态、进行体、从句等多种语法结构等,极大地方便了文本的自动分析。本文主要介绍这种工具的基本功能及其在外语教学和研究中的应用。
1 PatCount的主要功能??
任何研究的目的都可以归咎为对事物内在规律的探索,语言研究自然也不例外。在很多情况下,语言及语言使用者的内在规律常常通过一些具体的特征在文本中表现出来,这些特征大致可以分为两种类型。第一类是显性特征,如文本的长短(按字数计算)、段落的多少等,这些特征一般较为容易识别。另一类特征是隐性特征,如文本中的词汇深度、说话人的思想和态度、高级句法结构等,这一类特征的识别常常较为复杂、耗时。在外语教学和研究的实践中,如果需要处理的文本较多或较长(如处理对象为大型语料库),即便是显性特征的识别及其频数的计算也可能会耗费大量的时间和精力,甚至容易出错,而隐性特征的识别及其频数的计算就更复杂了。??
语言特征的识别及其频数的统计与外语教学与研究息息相关,因而开发功能完善的文本分析软件就显得特别重要。??1.1 PatCount的主界面及其对正则表达式的支持??
PatCount由北京外国语大学中国外语教育研究中心语言工程研究室开发,其名称来源于英文中的Pattern(模式)和Count(计数)两个词,是一种使用自然语
?プ髡呒蚪椋毫好?成:博士,教授,北京外国语大学中国外语教育研究中心专职研究员。研究方向:语料库语言学、第二语言习得。?ば芪男拢翰┦浚?副教授,北京外国语大学中国外语教育研究中心专职研究员。研究方向:语料库语言学、自然语言处理。?ナ崭迦掌冢?2007-11-26?セ?金项目:本研究得到教育部哲学社会科学研究项目(06JA740007)、教育部人文社科重点研究基地重大研究项目(07JJD740070)和北京外国语大学研究项目“英语文本特征提取量化工具的实现”的资助,特此致谢。
言处理中的模式匹配技术对大量文本进行自动分析的软件。该软件的核心程序用Perl语言汇编而成,全面支持正则表达式(regular expressions),软件通过正则表达式的模式匹配技术,可以很方便地统计大量文本中多种语言特征的出现频率,以分析文本的语言特点。该软件的界面用Visual C#语言汇编而成,十分简洁、友好(见图1),软件功能十分强大、运行速度快。
如图1所示,PatCount的主界面分为上下两个窗口。??
上部窗口用于编辑或读入各种由用户自定义的词汇、短语或正则表达式文件(在该软件中称为模式文件,pattern file),这些文件中的表达式即体现各种文本特征的本义字符串(literal string)或正则表达式,如,正则表达式“[\w??]+_VB\w+\s([\w??]+_[RX]\w+\s)*\w+/V\wN”可以与由CLAWS4赋码后文本中的各种被动语态(如be discussed, was not understood, isn??t very well understood等)相匹配,可以用来统计文本中被动语态的出现频率。从技术的角度说,PatCount上部窗口读入的表达式可以称为模式(pattern)。在模式匹配(pattern matching)技术中,常见的模式可以分为两类,第一类为本义字符串
您可能关注的文档
最近下载
- 农村电子商务教材配套教学课件(完整版)(文字可修改版).pptx
- 空冷湿冷机组冷却系统互补运行节能节水技术.pdf
- 矿产项目披露标准加拿大国家NI43-101文件-一-.pdf VIP
- 加拿大地质规范NI43-101标准(英文).pdf VIP
- 加拿大地质规范NI43-101.doc VIP
- 新款 GLK级车型介绍 车型204维修介绍手册.pdf VIP
- 加拿大NI43-101标准中文版.pdf VIP
- 医疗护理员课件.pptx VIP
- 数字逻辑与数字系统设计_中国矿业大学中国大学mooc章节课后测试答案期末考试题库2024年.docx VIP
- 道奇-JCUV-产品使用说明书-Journey Crossroad 旅行版(2.4L)-JCUV (B6F)-2013款酷威用户手册(产品使用说明书).pdf VIP
文档评论(0)