- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
双向型高搭配力度ngram链在语料库建设中应用
双向型高搭配力度ngram链在语料库建设中应用
[摘 要]对搭配的研究是语言研究的焦点之一,搭配研究不仅包括两个词之间的搭配,还包括各种扩展的搭配,最常见的对搭配的扩展是搭配在频数上的扩展,通常称为词串(lexical bundles)。本文研究的是搭配的另外一种维度的扩展――按照搭配力度的双向扩展,称为双向型高搭配力度ngram链,即把搭配力度最强的多词序列提取出来,然后进行分析。分析发现:双向型高搭配力度ngram链中大部分序列与文本内容相关度比较高,并且结构相对完整,可以作为候选的关键词组。
[关键词]中国英语语料库;关键词组,;双向型高搭配力度ngram链
[中图分类号]H31 [文献标识码]A [文章编号]1008-4738(2009)01-0080-04
[收稿日期]2008-12-26
[基金项目]国家社科基金项目“ 基于语料库的英语本土化研究及应用 ”(07BYY022)
[作者简介]苗 永(1977-),男,河南师范大学外国语学院2006级外国语言学及应用专业硕士研究生,研究主向:语料库语言学、计算机语言学。
一、基本理论
ngram是由n 个连续单词组成的序列。在这里,文本被看成由元组(tuple ,例如ngram就是由单词组成的元组)组成的线性序列[1]。一个、两个、三个词组成的元组分别叫uni-gram、bi-gram、tri-gram 等等,而各个元组有相应的频率和概率。在候选关键词组鉴别阶段,我们对通常采用的词语分类信息(如名词、动词、形容词等)不予考虑,只考虑其频率和概率分布特征。这是因为,人们在单词分类时经常会遇到困难:一个词词性具有非常大的不确定性。李文中博士在2008年语料库语言学学术讲座中曾经提出:按照现在的词汇分类方法,一个词可能是名词,也可能是动词,还可能是形容词,偶尔还是副词,那么它到底是什么词呢?可能它什么也不是――现在的词性分类方法可能存在问题,从而导致词性分类极大程度上的不确定性。为了在第一个阶段暂时规避这个问题,我们这里暂时不考虑词性、词义。
双向型高搭配力度ngram 链以搭配力度为基础。根据卫乃兴的定义,搭配是指几个词在文本中反复共现(广义的界定)[2]。一个词与节点词共现频度的异常程度就是搭配力度[3]。在本项研究中,搭配力度用t值来衡量。一般情况下(不考虑自由度时),t值大于2说明搭配力度相当强。一些研究者认为,只靠t值来衡量搭配力度不太合适,因为一些不常用的词作为节点词的时候,其搭配词相对于节点词的搭配力度(用t值衡量时)明显偏大[4]。在可行性研究中发现,这种情况出现的概率很小,因此这里只是用t 值衡量搭配力度,t值大于2即认为搭配力度相当强,从而可以使ngram作相应链式延伸(生长)。其他研究者可以根据自己的需要,采用其他衡量标准如z值、mi值等等。
在研究搭配的时候,大部分研究者选择了对称跨距(如-5/+5,选择节点前五个词和节点后五个词作为语境)。这时会产生“双重进入”(double entering)。John Sinclair给出了一个例子:如果两个词频度相异,并且他们之间的搭配力度较强的时候,取不同的词作为节点词(另外一个作为搭配词),那么计算得出的搭配力度是不同的。如果词A的频度是词B频度的两倍,那么它们每次共现时,这次共现对B来说体现了更强的搭配力度,所以,以A为节点,B为搭配词体现出的搭配力度要小于以B为节点A为搭配词所体现出来的搭配力度[5]。
李文中教授从另外一个角度描述了搭配力度的不对称性。如“vice versa”,vice 后可能会有很多词高频出现,从这个角度讲,vice 对versa 的吸引力(以vice为节点词,versa为搭配词)并不强。而如果选择versa 为节点词,versa前面的搭配词是vice的概率则比较大,因此,选择versa为节点词,vice为搭配词,体现出来的搭配力度则更强。
为了规避“二次进入”和搭配力度的不对称性,我们准备采用非对称跨距。为了使ngram按照搭配力度强者优先的原则向两边延伸(生长),这里选择跨距为-1(向左延伸(生长))或者+1(向右延伸(生长)),即仅取左一或者右一位置作为语境,延伸(生长)条件为t值大于2,计算方法参照了马广惠的相关分析结论[6]。
二、双向型高搭配力度ngram 链的例子
利用中国英语语料库提供的随机抽取功能,我抽取到英文版《三国演义》中第十五回“Taishi Ci Fights With The Little Prince; Sun Ce Cuts Short The White Tiger King.”(根据冯志伟教授2008年在语料库语言学牧野论坛上的提
文档评论(0)