语料库与英汉词典编纂.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库与英汉词典编纂

语料库与英汉词典编纂 徐海江 语料库究其本质是大量语言资料的集合,借助于计算机对语料库中的语料进行,研究具有很 强的操作性,它以机器为阅读媒体,可对语料库中的语料进行彻底的检查,并可处理大批量的 语料,为多种研究目的提供资料的反复处理。国外著名的语料库有收100万美语词的美国布 朗大学的美国英语语料库(Brown University Corpus)、收100万书面英语词的英国兰开斯 特/挪威奥斯陆—伯根语料库 The Lancaster/Oslo Bergen Corpus 、收2000万书 面英语词的英国伯明翰大学语料库(Birmingham University Corpus)、收1亿英语词的英国国家语料库(British National Corpus)等,国内的语料库主要有收词达1000万 的中国社科院文研所的汉语语料库、收词近1000万的台湾古代、近代和现代汉语语料 库以及由南京大学和商务印书馆共同研制的收词近3000万的英汉语料库等。 Biber,Conrad和Reppen(1998)认为以语料库为基础的研究方法与传统的研究方法相比,其主要特点体现在以下几个方面:①对自然语言文本中的实际模式进行分析;②利用计算机的自动和互动技术对语言进行分析;③对语料进行定量和定性分析。通过对语料库的研究,语言研究人员在决定词义、词频和例证等方面找到了一种新的途径,从而开创了词汇研究的新时代。 众所周知,词典的编纂是以大量的文字资料为基础,词典的核心应包括词目、释义和例证等 。词典的编纂是一项长期的工作,需要编写者们花费大量的时间和精力,往往经过几年甚至几十年的时间才能完成一部词典。这主要是由于词典的词目的确立和例证的取舍是一项浩大的工程,这种编写方法主要是以手工操作为主,以有形的纸为媒介,而建立在语料库基础上的词典编纂则呈现出明显的优势。 一、语料库与词典词目的确定 词目是词典的一个核心组成部分,它直接影响了词典的使用性。在传统的词典编纂中,词典 工作者根据自己的经验来确立词典的词条,这种方法既缺乏科学性,也无法满足使用对象的需要,使其实用性相对比较差,这在学习词典方面尤为突出,而“利用原始语料库进行词汇统计和调查,并充分利用前人的研究成果,就可为选词范围提供量化根据”。(解建和,19 97:58)据此确定的词目具有很强的针对性,能更好地服务于词典的使用者,从而使编纂出 的词典更加科学。国外已有多部词典是根据语料库来确定其词目的,如《朗文当代英语词典》(Longman Dictionary of Contemporary English,1995版)、《柯林斯合作英语词典》(第2版)(Collins COBUILD English Dictionary,second edition)及《剑桥国际英语词典》(Cambridge International Dictionary of English)等。Sinclair (1991:143)对COBUILD语料库中的语料进行了词频统计,得出的结果列于下表。根据他的方法,词典编写者可以创建自己的语料库,在其中输入各个时期、各种体裁、各种语体、各个区域的 英语文献,然后对此词频统计并按从高到低的顺序排列,据此确定编写者所编词典的词条。  频率统计结果 the 309497 with 35844 of 155044 as 34755 and 153801 be 29799 to 137056 had 29592 a 129928 but 29572 in 100138 they 29512 that 67042 at 28958 I 64849 his 26491 it 61379 have 26113 was 54722 not 25419 is 49186 this 25185 he 42057 are 23372 for 40857 …… you 37477 on 35951 二、语料库与例证的选择 例证在词典中起着至关重要的作用,它为使用者提供了丰富的语用知识,这正是语言学习者 所追求的目标之一。以往的词典大多是采用传统方式所编纂的,使用的例证大多是以现有的 原版词典和外文书刊为主要素材,词典编纂者需要花费大量的时间和精力从浩瀚的资料中搜集、整理并筛选出合适的例证,这无形中延长了词典的编纂周期。由于语言的变化日新月异,词典使用者常常觉得在新近编纂的词典中无法查寻到一些新出现的语言现象。为此,词典编纂者努力寻求一个能解决这一难题的途径,语料库的建立正好满足了这种需求。 借助于语料库,词典工作者可以在几秒或几十秒的时间内选出大量的可选例证,然后经过筛 选确立能代表某种语言现象的例证,如词语间的搭配、名词的单复数性征及主谓的一致性等

您可能关注的文档

文档评论(0)

80219pm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档