- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《现代 汉语析 义元语言词典》的开发 与应用 33
《现代汉语析义元语言词典》
的开发与应用
荆、道功
摘 要 析义元语言是元语言系统 中最具人工性质的类型 ,其研 究对语义形
式化及 中文信息处理有重要价值 。 《现代汉语析义元语言词典》依据代表
性、广布性和共现性三原则已收 3500词 ,并基于词的词汇信息、常规信息、
语法信息、释义信息、义类义场信息、义征表达式信息、义住组合信息等属
性字段建立文件结构。作为工程语言学项 目,析义元语言词典的开发最终
为语 言的应用研 究服务。
关键词 析义元语言 属性信息 收词原则 文件结构
语义是 目前语言信息处理的难点。如何解决语义的形式化问
题 ,如何为计算机理解生成提供可形式化的语义网络 ,成为语义研
究的核心。2001年,李葆嘉提出了 “面向信息处理的现代汉语元
语言研究”这一课题 ,认为存在词汇元语言、释义元语言和析义元
语言 、认知元语言四个层面。析义元语言 ,即语义特征 ,简称义征 ,
是比释义元语言更加抽象的元语言系统 ,具有人工语言性质 。析
义元语言研究通过对同一义场内义位 的对 比分析挖掘义征标记 ,
* 本研究得到教育部人文社会科学基金项 目(O9YJc740042)和江苏省哲学社会
科学基金项 目(09YYB002)以及南京师范大学 “211工程”三期重点项 目“语言科技创新
及工作平台建设”的资助。
34 辞书研 究2011年第 5期
属于元语言研究的微观层面。任何一个义位都是义征 的聚合体 ,
析义元语言词典的开发正是基于此 ,在提取和建构现代汉语义征
标记集 的基础上,对常用词汇进行义征分析 ,按照义征排序规则 (析
义元句法模式)列出义征表达式 ,并根据属性信息建立文件结构。
一 、 析义元语言词典的收词原则
收词范围和所收词汇是衡量一部词典质量优劣 的重要标准 ,
析义元语言词典建构亦是如此。但与常规词典的不同之处表现在
对词的语义分析上 。常规词典对词的分析通常采用词汇释义的方
式 ,而析义元语言词典 的语义分析采用义征分析 的方法 。义征分
析是析义元语言词典建构的基石。析义元语言词典收词须遵循三
个原则 :
第一 ,代表性原则 。代表性原则指所选词汇应该具有较高的
权威性和使用率 ,不应该仅仅适用于某一领域或通行于某一特定
人群 。目前汉语词汇常用词表有 《汉语词汇的统计与分析》(北京
语言学院教学研究所 1985)、《现代汉语三千常用词表》(何克抗等
1987)、《普通话三千常用词表》(增订本)(郑林 曦等 1987)等 。有
的词表是基于语料统计 的方法建构的,如 《汉语词汇 的统计与分
析》;有的是词汇研究的阶段性成果 ,如 《现代汉语三千常用词表 》
《普通话三千常用词表》。比较发现 ,各个词表虽然包含 了一定量
的共有词汇 ,但也存在较大差异 。而且通过基于个人语感 的考察
发现,有些 日常生活中的常用词 ,在某些词表中并未 出现。
第二 ,广布性原则 。广布性原则指所选词汇应该具有较大覆
盖性和分布率 ,通行于各个领域。这与代表性原则有一定相似之
处,但又有差异 。代表性原则侧重使用率,广布性原则侧重分布
率 。如 《汉语词汇的统计与分析》和 《现代汉语三千常用词表》的语
料基础是 中小学教材 ,属于母语教学领域;《普通话三千常用词表 》
的语料基础是多种工具书和课本 ,属于普通话 学习领域 。各个词
《现代汉语析义元语 言词典 》的开发与应 用 35
表虽有一定代表性 ,但也有其语域 的局限性 。选取义征分析对象
词汇时,力求充分考虑到广布性,尽量把各种语域 中广泛使用的词
语吸收进来 。
第三,共现性原则 。共现性指所选词汇应该是在 目前大多数
词典和词表中收录的。共现性的高低体现词典或词表研究者对某
词语认可程度的高低 。细言之 ,共现性主要包括 口语交际领域和
书面语领域的共现以及母语教学领域和对外汉语教学领域 的共现
等 。
基于以上三原则 ,考察选取词汇义征分析 的对象词汇。到 目
前为止 ,已选取 3500个常用词汇作为义征分析对象。具体包括名
词 1221个,动词 1002个 ,形容词 784个 ,副词 22
文档评论(0)