- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
初中英语论文英语语料库检索工具的设计理念及其深层化
英语语料库检索工具的设计理念及其深层化
语料库语言学是在现代语言学中最具有影响力的分支之一,横跨了语言学、计算机科学、认知语言学和应用语言学诸学科,提供了一种新的研究范式。它使语言学家站在了对大规模真实文本的自动化分析的基础上,从而有可能揭示出自然语言的更多规律和复杂性。辛克莱教授认为,“未来的十年中,‘自动、未标注文本’的选择将处于主导地位。道路已经畅通,人们可以使用成套软件,以实时方式,迅速又高效地做大部分工作。对于那些可预见的并经常需要某些注释的项目,在整个语料库中使用工具或许是值得的;可将注释结果储存在数据流中,需要时则与连续文本合并一体。分析采用自动手段时,‘预先’与‘实时’间就不存在原则上的差异——差异仅在于策略。对提供一般资源而言,由于要求规模与灵活性,‘自动+未标注文本+实时’之模式很可能会普遍流行”(杨惠中, 2002: 300)。 1 语料库检索工具的概念与功能 按照历史发展的次序,语料库工具可以分为三类: 检索工具(Concordancer); 自动词性标注工具(Tagger); 自动语法标注工具(Parser)。其中,语料库检索工具的历史最悠久、应用范围最广泛、使用频率最高、品种最丰富。语料检索工具的基本功能包括词表(Wordlist)生成、语篇统计、“带语境的关键词”(KWIC)索引、排序、搭配词统计、词语形式统计、主题词提取、词丛统计、联想词统计及重组以及词图统计(杨惠中,2002:167)。其中,“KWIC”和“Wordlist”是语料库检索工具的最基本功能。 2 主流检索工具的功能概述与评析 目前,我国语料库研究者能够从互联网获取的通用性英语语料检索工具已经达10余种,大部分运行于Windows或者DOS环境中,也有少量工具只能运行于Mac或者UNIX平台。笔者对其中最具有代表性的10个检索工具进行了下列评测: (1) MicroConcord: DOS界面,不能鼠标操作; 可以设置检索条件为“大小写敏感”; 可以同时检索多个“关键词”; 可以检索“词”、“词组”、“字符串”; 检索结果只能以纯文本文件(*.txt)的格式保存到磁盘供进一步分析研究; 可以使用通配符“*”; 不能生成词频表(Wordlist); 对检索结果可以通过手工标注进行半自动的排序; 可以对法语、西班牙语、德语等带有重音符号的文本进行检索; 可以实现“关键词的消隐(Zapping)”,以利于快速形成相应的语言测试题;(11)可以按照关键词两侧某个位置上的搭配词对输出结果进行排序;B12 可以半自动地删除检索结果中的某些输出项。 (2) Concapp 3.0: Windows界面,鼠标操作; 支持英语、简体中文、繁体中文、日文的语料; 支持对前缀、后缀的检索; 支持单词、词组和任意字符串的检索; 支持大容量的语料文件; 可以对语料中的词形按照字母进行顺序排序或者按照词频进行排序,并且可以将结果以文本文件的形式输出; 可以对语料进行查找、替换、粘贴、剪切等操作; 可以设置检索结果的“跨距”; 可以对关键词左侧、右侧、或者两侧的“相关词”进行检索; 支持对单个或者多个语料文件的检索;(11)可以把检索的结果以网页格式输出;B12 可以打印检索的结果。 (3) Wordsmith Tools: DOS界面,鼠标操作; 含有多个面向语料库研究的实用工具; 其检索功能由“Concord”子程序来执行; “演示版”的语料检索功能受到极其严重的限制,检索结果最多只能显示25条,更多的输出项则重复显示第25条检索结果; 语料检索的过程中有进度条显示百分比; 可以实现“关键词的消隐”; 可以对搭配词进行一些基础性统计; 可以对由关键词构成的“词丛”进行一些基础性统计; 在进行语料检索时,可以设置为“大小写敏感”; 可以把“关键词”设置为“整词匹配”(即,把关键词作为一个完整单词来处理);B11 总体而言,其语料检索功能相当丰富,最独特而强大的功能在于:对不同语料库或者语料子库之间的一系列关键词进行“词频对比研究”,从而揭示一些跨语域的词频变化规律。 (4) Concordance: Windows界面,鼠标操作; 检索结果可以保存为*.concordance(专用格式)、*.txt(纯文本格式)、或者*.htm(网页格式); 对语料检索之后形成的词表可以有多达11种排序方式:词频升序排序、词频降序排序、词长升序排序、词长降序排序、出现次序排序、以单词方式升序排列、以单词方式降序排列、以字符串方式升序排列、以字符串方式降序排列、以词尾为序排列、以字符尾为序排列; 可以使用“规范化表达式(Regular Expressions)”,
文档评论(0)