- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
建设中文词汇语义资源中的一些问题和我们的对策
董振东 董强
中科院计算机语言信息工程研究中心
dzd@ DongQinag@
摘要:知网是一个中英文双语的描写概念与概念之间的关系以及概念的属性与属性之间的
关系的知识系统。自1999 年公布以来,它已在许多方面得到了应用,具有广泛的影响。本
文讨论了在建设知网这一语义资源中所遇到的各种理论上和技术上的问题,以及作者对它们
的考虑和处理。这 问题包括:词汇语义资源的规模、深度、跨语种、词语的选择、意义的
区分和义项的确认、语义描述的策略以及关于意义的计算。
关键词:词汇学;词典学;语义;义原;知网;
Resolutions to Some Problems
in Building Chinese Lexical Semantic Resources
Zhendong Dong Qiang Dong
Research Centre of Computer Language Engineering Chinese Academy of Sciences
dzd@ DongQinag@
Abstract: HowNet is an on-line common-sense knowledge base unveiling inter-conceptual
relations and inter-attribute relations of concepts as connoting in lexicons of the Chinese and their
English equivalents. It has gained wide application since it was released in 1999. This paper
discusses many issues encountered by the authors in building HowNet and presents the solutions
to them. They are size, depth, cross-language, selection of words and phrases, differentiation of
meanings, semantic representation of words and phrases, and computing of meanings.
Keywords: lexicology; lexicography; semantics; sememe; HowNet;
首先要明确:这里我们讨论的是面向计算机的词汇语义的研究,或是为计算机而建设的词汇
语义资源。本文要介绍的是我们在建设知网中遇到的问题以及我们对这 问题的考虑和处
理。不同的面向有不同的任务、不同的问题。它们可以相互借鉴,但不能相互代替。
1.关于规模
一个能基本满足实用需求的词汇语义库的规模的最低词汇量是多少?我们根据我们曾经进
行过的机器翻译系统研发的经验,在建设知网之初就确定其规模不可低于5 万词语。一个词
汇语义库如果低于2 万词汇,那只能是算一种实验,它既不能满足实用的需要,也不足以证
明它自身的理论基础、方法是否正确和可靠。从2 万到5 万 不是简单的量的问题,而是质
的问题。
知网知识库的中文词语条目现有7 万,当然实际上不止,在知网中现在还没有把拼音加上,
因此象 “花”、“行”、“盛”、“了”、“的”、“重”等在计算时都只算是一个条目。知网知识库
中的中文义项总数为8 万5 千。知网知识库的英文词语条目现有7 万,其对应的义项总数为
8 万6 千。知网知识库的总记录数为14 万3 千。
2 .关于深度
这也是与规模有关的。这里所说的深度指的是概念分类体系的深度、概念描述的深度以及词
语或概念关系的深度。知网中实体类(一般为名词)、属性类(一般为名词)、以及属性值类
(一般为形容词和副词)的分类体系的深度是很浅的,但是其事件类(一般为动词)的分类
体系的深度是很深的。由于知网采用的是义原为基的策略,因此分类体系的深度是由义原间
的关系决定的。知网中的概念描述的深度以及词语或概念关系的深度基本上
文档评论(0)