基于R―gram语料库分析软件PowerConc设计与开发.docVIP

基于R―gram语料库分析软件PowerConc设计与开发.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于R―gram语料库分析软件PowerConc设计与开发

基于R―gram语料库分析软件PowerConc设计与开发   摘要:在继承以往语料?分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料?分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regular expressions)的N元组(N-gram)为基础。二者的有机结合即本文所提出的R-gram。R-gram这一概念大大增强了检索和匹配的灵活性。同时我们设计了兼容正则表达式的简易输入语法――Smart Input,降低了用户使用的难度,提高了软件的易用性。PowerConc软件基于面向对象的思想开发,核心功能被封装在不同的类中,与界面分离,具有很好的扩展性和可维护性。PowerConc的开发将有效促进语料?语言学研究的开展。   关键词:语料?分析工具;PowerConc软件;R-gram;语料?   中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2013)Ol-0057-0006   1 语料?分析软件的开发背景   1.1引子   语料?研究需要对大量文本进行计算机分析,其中语料?分析软件的作用十分关键,且很大程度上决定着研究数据的准确性和可靠性。没有良好的语料?工具支持,语料?研究便难以有效开展。目前常用的语料?分析工具有:Mike Scott设计的WordSmith Tools(以下简称WordSmith)、Laurence Anthony设计的AmConc、Michael Barlow设计的MonoConc Pro和R,Watt设计的Concordance等。其中WordSmith功能最全,学界认可度最高。其他软件有的是WordSmith的(部分)重写,有的只能实现WordSmith的少量功能。综合来看,这些软件通常包含词汇索引(concordan―cing)、词表生成(word list)、主题词计算(keywords)等功能,但在统计和搭配计算等方面,对正则表达式(regular expressions)和N元组(N-gram)的支持,易用性和计算效率方面还有待提高。   近些年来,国内外语料?建设蓬勃发展,但语料?分析软件的开发却相对滞后,一方面新工具开发较少,同时,原有语料?分析工具升级缓慢,在核心功能上改进不大。本研究希望结合语料?语言学近年的发展,开发出与之相适应的分析工具。   1.2语料?分析软件发展概述   语料?是指按一定原则取样获得的大规模电子文本汇集(Sinclair,1991;Hunston,2002;Baker,2006)。语料?规模通常很大,因此需要借助计算机软件来辅助分析。近半个世纪以来,语料?分析工具层出不穷,数量、种类不断增加。   语料?软件包括:词汇索引工具(concordancer)、自动和手工标注工具(词性标注、句法标注、语义标注、语用标注等)、文本整理工具(文本格式转换、文本编码转换)、口语转写工具、统计分析工具等。语料?分析工具中最常用的是索引工具。一般所谓的通用型语料?分析工具即指索引工具。最早的计算机索引工具由Robeto Busa于1951年开发(McEneryHardie,2012:37)。当时的索引工具只能提供索引行语言实例。后来索引工具的功能得到很大扩展,但名称仍然叫做索引工具。现在的通用型索引工具,通常至少包括生成索引行和词表两大功能。   根据McEneryHardie(2012:37-48)对语料?分析工具的时代划分,我们将相关工具开发情况汇总如表1。   其中,第一代和第二代索引工具主要是在DOS环境下运行。第一代工具更受硬件限制,运行速度缓慢。第二代索引工具已能初步实现今天索引工具的基本功能,如:索引行的生成、词频表、短语表的生成,甚至是词语搭配的计算(如TACT)。   第三代语料?工具以WordSmith为代表,这些软件主要在Windows或其他图形界面操作系统中运行。WordSmith是商业软件,AntConc为功能相近的免费替代软件。这两款软件最能代表第三代语料?分析工具,两者都拥有广泛的用户群体。WordSmith各版本主要功能划分为三大模块,即:词汇索引(Concord)、主题词(KeyWords)、词频表(WordList)。到5.0版本(2008年)以后,WordSmith增加了框合结构(Conc―Gram)功能,但从界面功能划分看,主要还是维持三大核心模块。大模块下还有词簇提取(cluster)和词语搭配等子功能模块。WordSmith的三大模块成为了通用语料?软件开发领域的事实标准。   第四代语料?工具主要指基于互联网的语料?网络应用(web application)。这类工具通过浏览器与服务器的交互

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档