语料库数据化发展趋势及词典学意义.docVIP

语料库数据化发展趋势及词典学意义.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库数据化发展趋势及词典学意义   摘要 语料库对词典学的价值已得到辞书界的普遍认可,但传统大规模语料库由于缺乏必要的标注,与词典微观结构项之间的相关性不足,这使得它对词典学研究和词典编纂的贡献受到很大的制约。文章从词汇知识库和数据库的建设特点入手,探讨它与词典学的相关性及其在规模、速度和信息量等方面的局限;最后以COCA为例,从语料库的标注、语料库的索引、语料的智能化检索和显示等方面探讨语料库的数据化特征及其词典学意义。   关键词 词汇知识库 词汇数据库 语料库数据化 语料库与词典编纂   在语料库发展的初期,人们对语料的评价和期望都十分高,似乎有了语料库,词典的一切问题都解决了:释义和义项划分有了依据、例证的采集可以变得轻松、词典的编纂效率可以大大提高等等。人们的主要精力是要把语料库做大,觉得大到一定程度就可以覆盖和解决词典编纂的一切语言问题了。所以,语料库迅速从百万级到千万级,最后柯林斯的“Bank of English”在20世纪80年代就达到空前的近5亿词。这时,词典编纂者突然发现,在使用这些大规模语料库时,随便输入一个词查询就会产生成千上万的索引行,显示界面会把这个词的各种用法实例都一股脑呈现出来。面对海量语料,词典编纂者往往无从下手,只能逐条浏览;这会大大增加其工作量,影响词典编纂的进度。因此,西方语言学家和词典学家早在20世纪七八十年代就开始了语料的数据化加工,取得了一系列的成果。下面就语料数据化及其词典学意义做一探讨。   一、词汇知识库的建设   词汇知识库(knowledge base)是为了特定目的,根据一定应用领域的要求、背景特征、属性特征和使用特征等构建的模块化的语言知识集合,系统地满足用户某方面的知识需求。自20世纪70年代开始,美国学者就开始设想建立能进行自动语义描述的大规模词库,并在20世纪80年代中期付诸实践,我国的专家在20世纪90年代以后也进行了这方面的尝试。现在,为人熟知的词库有词网(WordNet)、 智网(MindNet)、框架网(FrameNet)、动词网(VerbNet)、命题库(PropBank),以及国内的知网(HowNet)和综合知识库(CLKB)等,分别用于句法分析、语义分析和自然语言处理或理解等,当然也可以用于词典学研究和词典编纂。   这些词库的建设并没有受当时主流语言学重语言能力(competence)轻语言应用(performance)学术思潮的影响,而是从语言实例(语料)入手,通过自下而上的方式对语言的属性进行描写,如句法模式、题元角色、概念结构等语言规则和语义关系等。譬如,词网使用同义词集合(synsets)来表征词汇概念,在词的形式和意义之间建立起映射关系,把名词、动词、形容词和副词归入认知同义集合(sets of cognitive synonyms),每一集合表示一个不同的概念;同义集合之间通过概念―语义和词汇系统关系相互联系起来(Miller 1990;Lin Dekang 1998)。智网利用微软的一个广域自然语言分析器(broadcoverage parser)自动分析词典释义和例证文本而获得词汇语言知识,涉及24种关系,包括共同施事、拥有者、深层宾语、深层主语、领域、材料、来源、目标、原因、意图、方式、方法、同义等(Richardson et al. 1998)。框架网是基于Fillmore框架语义学、借助词典释义和语料建成的知识库,它利用“框架”和框架元素来解释词的结构模式和语义角色,表征词汇之间的共现特征和相互关系,语义结构就蕴涵在这种关系中。有了这些语言资源,研究者就可以设计机器学习算法,构建语义角色标签的自动标注系统,从而实现句子语义结构的自动识别,为各类精细的语言工程应用服务(Fillmore et al. 2001;Fillmore 2003;Ruppenhofer et al. 2010 )。这些词库对于认知词典用户的内在知识结构、按用户的知识特点设置微观结构信息项及其组织方式有很好的借鉴作用,它们并不是为词典编纂而建的,能直接用于词典编纂的词汇信息并不多。因此,一些语言学家和词典学家尝试建立能用于词典编纂的通用词汇数据库。   二、词汇数据库的建设   词汇数据库(database)指的是把从语言实例(语料库)中提取的词汇语言属性,如形态、句法、搭配、语义和用法等各种基本信息按一定格式以多元子集的方式储存在一起,以满足用户对共享词汇语言数据的需求。数据库一般是由字段(field)、记录(record)和文件(file)构成。在库中,人们把字段定义为能反映词目某一语言特征的简单数据项,记录是能反映词目某一类语言属性的、有特定指向或归宿的复杂数据项,而文件则是某一类词典微观数据项的集合。这样,单一词目(lemm

文档评论(0)

小马过河 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档