汉语搭配定量分析初探 权威资料-语言文字学概论.docVIP

  • 10
  • 0
  • 约1.04万字
  • 约 7页
  • 2017-11-21 发布于江西
  • 举报

汉语搭配定量分析初探 权威资料-语言文字学概论.doc

文档由 /hechaoscut 上传,本文为word格式。感谢您的支持! 汉语搭配定量分析初探 【标题注释】清华基金、基金资助项目。 【作 者】孙茂松/黄昌宁/方捷 【作者简介】孙茂松 黄昌宁 方捷 北京 清华大学计算机科学系 100084 【内容提要】搭配在处理中具有一定的应用价值。汉语搭配的研究仍停留在主要以人的主观判断为标准的定性分析阶段,缺乏定量数据的支待。本文借鉴了和语料库语言学两个方面关于搭配的研究成果,提出了包括强度、离散度及尖峰三项统计指标在内的搭配定量评估体系,构造了相应的搭配判断算法。作为对算法的初步测试,我们以一个约710万词次的新华社、一致地分析搭配提供定量辅助手段。   1.意义 为什么我们说穿衣、戴帽而不说穿帽、戴衣?为什么同是看,当后接译文必须分别以see,watch,read及visit与之对应?显然,这是搭配(collocation)的影响所致。搭配在语言教学(特别是第二语言教学)进而在语言交际中的作用,早已为人们所认识,并且日益得到重视。近年(general-purpose dictionary),如Websters New World Dictionary,Collins English Dictionary,Concise Oxford Dictionary,The Random House Dictionary of the English Language,均收录了一定数量的搭配,正反映了这种趋势。 搭配研究的一个新兴应用领域是语言信息处理。一切自然语言处理系统归根结底都是基于知识系统,如果希望计算机实现对一个句子的理解或翻译,那么人完成同样任务所需要的全部知识,严格说来,计算机一点儿也不能少。搭配知识则是所谓全部知识中有机组成部分之一。仍以看电影、看球赛、看小说、看朋友为例。对它们进行句法、语义分析,就会发现它们的句法和语义表示完全相同(均为动宾结构且宾语均为动作看的受事),必须嵌入相关的搭配知识才能体现出差异,从而生成合适的译文。再如,汉语中双音节动词加双音节名词既可构成谓词性成分(如生产化肥、生产汽车),也可构成体词性成分(如生产能力、生产资料),前者具有上的普遍性,后者则有特异性,根据搭配知识很容易排除分析过程中遇到的此类歧义。   2.对搭配的认识及其相关研究 什么是搭配?似乎不同的理论角度与应用背景,人们对此问题存在着不同的理解,本文不打算展开讨论。在搭配领域最具影响的研究当推宾州大学Benson教授的工作及其负责编纂的BBI Combinatory Dictionary of English (1985,1986,1989,1990)。我们比较倾向Benson编纂的BBI时给出的关于搭配的定义: 定义1 搭配是一种具有任意性的、重复出现的词的组合。 (A collocation is an arbitrary and recurrent word combination.) 从Benson的定义可知搭配的两条重要性质: 性质1 搭配是重复出现的。 这一性质决定了搭配应有一定的流通度,而非偶然的个例。 性质2 搭配是任意的。 这里有必要引入两个与性质2密切相联的重要概念,即词的组合(free combina-tion)与约束组合(bound combination)。按照Benson的观点,自由组合是指构成该组合的词并非以一种相对特异的方式相互约束,它们各自还可以与其它词自由地进行组合。例如,动词condemn可带相当多的名词(theabduction,abortion,abuse of power,the acquittal等)作宾语,而名词murder也可出现在数以百计的动词(abhor,accept,acclaim,advocate等)之后,故组合condemn murder是自由组合。自由组合是可预期的,一个学习第二语言的人,只要了解有关词的含义、语法属性及相应的语法组合规则,就可以在语言交际中根据需要很容易地拼出这种组合;约束组合的情形正好相反,具有一定的特异性,辖内的词至少有一个与其它词的组合受到较大限制。如组合commit murder中的动词commit只可能同屈指可数的几个名词crime,wrongdoing发生,故应是约束组合。约束组合(搭配)是不可预期的,在同样的语法、语义制约条件下,为什么非得这么讲,那么讲就不行,没有太多的道理,恐怕一般只能解释为习惯使然(如英语只说make

文档评论(0)

1亿VIP精品文档

相关文档