一种基于领域本体的新术语扩充方法amethodfornewterm.pdfVIP

下载本文档

1
0
约2.16万字
约 10页
2017-11-24 发布于天津
举报
版权申诉

一种基于领域本体的新术语扩充方法amethodfornewterm.pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于领域本体的新术语扩充方法amethodfornewterm

基金项目：国家“863”计划基金资助项目“面向农业领域的海量知识资源组织、管理与服务系统研究”(2007AA01Z179)；作者简介：陈宇（1982-），男，硕士研究生，主要研究方向：软件工程，领域本体；朱建锋，硕士研究生；吴毅坚，讲师，博士；赵文耘，教授，博士生导师； Email:chen_yu@ 一种基于领域本体的新术语扩充方法陈宇，朱建锋，吴毅坚，赵文耘（复旦大学计算机科学技术学院,上海201203）摘要：本文提出了一种基于领域本体的新术语扩充方法。结合传统基于统计和基于规则的方法，计算出词语在文档中的影响，使用领域本体来体现领域知识，通过在文档中识别出的本体中概念来计算文档及词语的领域相关度，最终获得术语候选项的推荐排序，可以对术语候选项结果进行优化。设计实验及提供结果分析，说明该方法的有效性和可行性。关键词：领域本体；领域相关度；新术语识别； A method for new term recognition based on domain ontology CHEN Yu ，ZHU Jian-feng ，WU Yi-jian ，ZHAO Wen-yun （School of Computer Science Fudan University ，Shanghai 201203） Abstract ：A method for new term recognition base on domain ontology is proposed in the paper. This method combines linguistic rules and statistical methods to get the infection degree from a word to a document. Optimize the term candidate result, using domain ontology to recognize concept in document and to calculate correlation degree between word, document and specific domain. The validity of the method is proved with a practical case. Keywords ：Domain ontology; Domain correlation degree; New term recognition 1. 引言术语(Term)，是在特定领域中一般概念词语指称[1]，如农业领域中的“氮肥”、“白斑病”等。因为术语本身具有较强的规范性，对术语的认定和收录要经过一个过程，所以术语词典的编纂往往滞后于术语的出现，需每隔一段时间进行扩充。传统术语词典的编撰和扩充需要领域专家手工进行，阅读大量文献，费时费力。如能使用计算机辅助识别出候选项，再通过专家参与确定，会有比较好的效果。计算机辅助术语扩充就是本文所要关注的问题。术语扩充，也可以说是新术语识别，所谓 “新”，是相对已有的领域术语词典而言。领域术语词典，即包含特定领域内部代表本领域特定概念词语的词典。而日常口语和书面语常用词典，往往被称为一般词典或通用词典。要想进行术语扩充，首先要找到 “新词”，主要有以下类别： a 不在通用词典和领域术语词典里面的词语（也被称为“未登录词”）。 b 在通用词典中，领域内使用频繁，却不在领域词典中的词语。由于初始的领域词典词汇较少，一些通用字典的词，可能还没有及时收录。 c 在通用词典中被识别成多个词，组合在一起才会在特定领域表达完整意思的词语，如 “旱黄瓜”（黄瓜的一种），如果在词典中没有，可以能被识别成“旱”和“黄瓜”，应该被合成。本文针对这几类术语扩充问题进行研究（其中c 类称为合成词，a 类和b 类称为基础词），提出一种扩充方法，结合传统基于统计和基于规则的方法，利用本体技术，使用领域本体来体现领域知识，提供比较丰富的语义信息，进而计算术语的领域相关度，对术语扩充结果进行优化。后续章节将介绍相关工作，该方法的具体步骤，算法、实验设计和结果分析。 2. 相关工作:术语扩充方法和本体介绍目前