- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Journal of Chinese Language and Computing 15 (2) : (103-112)
现代汉语语义构词规则初探*
1 1 2
亢世勇 许小星 孙茂松
1.烟台师范学院中文系 kangsy46@
2.清华大学智能技术与系统国家重点实验室
Submitted on March 1 2004,Revised and Accepted on October 12 2005
摘 要:
本文介绍了汉语语义构词研究的总体思路、《汉语语义构词数据库》的实现,在包含 5
万多个双音合成词的数据库基础上经过分类统计得出的字位在汉语构词中的分布状
况、字义与词义的关系类型、汉语语义构词的具体规则,最后简单总结了语义构词规
则的特点。
关键词:
现代汉语,语义,构词规则、词汇语义学,语料库,中文信息处理
1 引言
汉语构词法是汉语词汇学、语法学长期以来关注的问题,取得了丰硕成果。近年来随
着汉语信息处理的发展,汉语构词法的研究又有了更加实际的意义和需求,又取得了
很多有价值的研究成果。综观这些研究成果,主要是从语法形式入手研究构词法,关
注并揭示词的结构类型、构词的语素类型与词性之间的关系等。这些成果丰富和发展
了词汇学、语法学理论,同时,也为汉语信息处理词语的识别与理解提供了基本依据。
基于语义的汉语构词法研究才刚刚起步,目前所能见到的比较有影响的成果有周荐、
葛本仪、鲁川、傅爱平等先生的有关研究,这些成果有的提出了研究的思路、有的粗
略地分析了双音复合词两个语素之间的语义关系、有的从理论上总结“意合”构词研
究与实际应用上的不足。总的来说,这些成果是比较粗略的,限制了其在计算机语言
信息处理当中的应用。面向信息处理的基于大规模标注语料库的汉语语义构词规则的
深入细致的研究总结势在必行。
*
本项研究得到中国国家社科规划项目(01CYY002)和中国国家 973 项目
(G1998030507)的资助
104 亢世勇 许小星 孙茂松
2 汉语语义构词研究的总体思路
语素义与词义的关系一直是词汇语义学关心的理论问题,进入信息时代,其实际意义
尤为重要。搞清楚语素(字)义经过整合转化为词义的规则,不仅对人(尤其是留学
生)望文(字)生(词)义识读新词语具有重要的指导作用,而且是计算机语言信息
处理当中未登录词语的识别以及语义理解的重要依据。随着信息时代的到来,现代汉
语词汇迅速发展,“新词”激增,而“汉字”却未增,“这就证明了:汉族人既有用旧
字造新词的创造能力,又有看旧字懂新词的领悟力。”“我国人工智能学者和语言学者
要通力合作,让电脑模拟汉族人看旧字懂新词的智力。这就应促使‘汉语基因工程’
上马,即把字符当作汉语的‘基因’,构建各级‘意序模式库’,阐明造字、造词和造
句的‘意合规则’。”这样,计算机就可以利用这些规则去识别那些越来越多的未登录
词语,同时“也有助于对外汉语教学,要教外国学生也像汉族人一样,有看旧字懂新
词的领悟力和把新知识‘意译’为汉语时有用旧字造新词的创造力” [1] 。
如何研究由字义整合转化为词义的规律,即汉语语义构词规则?我们认为拟分三
步走。第一步按照一个统一的语义分类体系,分别建立现代汉语字、词的语义分类信
息库,尽可能获得全面、系统的字、词的语义分布信息。正是在这种思想指导下,我
们本着人机两用的研究理念,引入“字位”的观念(所谓“字位”就是最小的语义构
词单位,即形音义一体化的字,每个字位一形、一音、一义),遵循“一字一条、一
义一条、意义与语法功能结合、非语素字单独立条”等原则将“国标 GB2312”所定义
的 6763 个汉字衍生为 17430 个字位,按照《同义词词林》的语义分类体系给每个字
位归了类,录入数据库,建成了大型的《汉字义类信息库》[2]。第二步,在字、词语
义分类信息库的基础上,通过统计比较说明字、词语义分布的实际情况以及二者之间
的对应关系,为进一步进行语义构词规律的研究提供一个理论基础。经过比较研究,
我们发现:(1)字的义类体系和词的义类体系基本一致。(2)字、词在各个义类中的
分布比例
文档评论(0)