对义项设立是否贴切一种检验方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对义项设立是否贴切一种检验方法

对义项设立是否贴切一种检验方法摘要:文章根据词义标注的实践设计了一种检验词典义项设立是否贴切的方法,包括建立大规模平衡语料库,随机抽取一定规模语料作为检验库,对抽检语料做完全标注三个步骤。通过该检验方法能发现现有词典义项设立中存在的若干问题。 关键词:词典释义 检验 词义标注 一、词义标注对词典检验的启示 释义从一定意义上说是词典编纂的中心工作。一部词典的质量高低很大程度上决定于释义的质量(胡明扬1982)。加之词义概括、多义词义项划分、释义几个过程都比较复杂,处置不当容易导致诸如“肢解词的完整理性意义”(邹酆2003)、“义项关系不当”(吴云芳,俞士汶2006)等问题。胡明扬等(1982)指出:“词义概括是否得当,义项划分是否合理等问题,其实是可以通过语料检验的方法来发现并加以改进的。”然而词典释义检验有多大必要性、检验方法应如何设计、通过检验可以解决哪些问题等,尚少细致的讨论。 我们在完成课题“基于国家语委通用语料库之上的汉语义频词库的开发(SCT)”过程中发现,对词典释义的检验不仅必要,而且不能随意为之。课题的核心是计算机词义自动标注,也就是使计算机根据词典的义项设置,给使用中的多义词自动标注一个合适的义项。课题使用的词典是《现代汉语词典》(1996年修订版,以下简称《现汉》),目前已经完成了对3771个高频、双音节多义词的研究。作为课题的一个子项目,我们研制了“验证库”,即首先从大规模语料库中为每个多义词抽取一定量的句子形成语料库,然后由人模拟计算机标注一个义项,再由计算机自动标注义项,两相对照以检验计算机标注的正确率。在这个过程中发现部分句子难以标注,原因有多种:有的是仅凭句内上下文的确无法判断词义;有的是机用词典与普通语文词典的性质与功能不同所致;也有的表现为语文词典原有义项设置不合理。 在涉及词典义项设置的问题上,课题中对《现汉》调整有百余处,当然这些调整主要缘于机用义项库有着不同的性质与功能,调整的类型、原则、方法在《机用义项库在词义标注中的作用及其完善》一文中做了介绍(苏新春等2010),然而其中也不乏传统词典本身可做改进之处,从这个角度来说,我们认为词义标注正是实践了从词典释义回到言语实际的检验过程,对词义标注的结果及其困难进行深入分析就可以发现词典存在的不当之处。本文把词义标注相关课题中与语文词典释义相关的部分提取出来,设计了一种词典释义的封闭式检验方法,希望对一般词典编纂中义项的设立和释义有所帮助。下文就介绍这种检验方法的详细步骤,并举例分析课题中发现的词典释义不当之处。 二、检验方法——封闭式检验的三个步骤 封闭式检验旨在于一个封闭的语料库中,通过词义标注考察词典义项设置是否合理,重点考察一个“词形”所对应的意义的整体范围、义项关系、义项与语料的对应关系,进而分析词典中义项的概括模式、粒度是否与语料契合,个体义项是否恰当。有三个基本步骤: (一)建立大规模平衡语料库 建立大规模平衡语料库作为基础语料库,要能覆盖一般语文词典的基本范围,语料构成要与词典的性质、定位相对应。我们的课题以现代汉语为研究对象,要求语料能反映现代汉语的基本状况。研制的平衡语料库有2亿多字,主要包括三个部分:(1)国家语委研制的“现代汉语语料库”;(2)部分人民日报语料(2001年后的若干月份);(3)文学作品及部分教材语料。 “国家语委现代汉语语料库是一个大型的通用语料库。该语料库以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务对象……选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。”(靳光瑾等2005)“国家语委现代汉语语料库”设计比较合理,我们采用了它的基本结构和内容,但其字数略少,语料稍嫌陈旧,因而做了些补充。 (二)随机抽取一定规模的语料作为检验库 随机抽样检验是指从大规模基础语料库中随机抽取一定量的句子组成检验语料库。在SCT课题中确定抽样句子数时考虑到了词频高低、词义标注规则复杂程度(一般标注规则复杂的,其用法也就复杂,就需要更多的语料)、人工标注任务量三个因素。对3771个多义词,抽取的总句子数达493369个,一个词最多有233个句子,最少有100个句子。如此规模的语料量虽很难完全覆盖生僻义、方言义、行业义等不常用的义项,但覆盖词的常用义、较常用义,反映其基本面貌,则是没有问题的。 随机抽取步骤主要从检验方法的可行性方面考虑。在总语料库中检索3771个词总共得到245万个句子,即便有计算机辅助也难以细致分析。检验库规模仅为原来的20%,既能保证充分反映原来大规模基础语料库的特征,又大大减轻了检验的工作量。 (三)对抽样语料做完全性标注是这一方法的核心 完全标

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档