一种多策略的中文领域本体概念抽取方法.pdf

一种多策略的中文领域本体概念抽取方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种多策略的中文领域本体概念抽取方法.pdf

第 22卷 第 1期 西 安 邮 电 大 学 学 报 Vo1.22 No.1 2017年 1月 JOURNALOFXI’AN UNIVERSITY OFPOSTSANDTELECOMMUNICAT10NS Jan.2017 doi:10.13682/j.issn.2095—6533.2017.01.018 一 种多策略的中文领域本体概念抽取方法 翟社平 ,马蒙雨,马传宾,高 山,郭 琳 (西安邮 电大学 计算机学院,陕西 西安 710121) 摘 要 :为 了提高中文领域本体概念抽取的准确率和召回率 ,提 出一种多策略的中文领域本体概念抽取方法 。该方 法使用模式匹配法改进原有的单字合并法 ,经词性过滤和缺陷检测筛选 出概念集组成用户词典,并送入概念抽取系 统进行二次分词获得候选概念集;利用词频一逆向文本频率 (TFIDF)方法和信息熵融合得到TFIDFE方法,计算概念 权重以获得领域概念集 。实验结果表 明,该方法在领域术语抽取的准确率、召回率和 F值上均有较好 的效果 。 关键词:本体学习;概念学习;单字合并法;TFIDFE信息熵 中图分类号 :TP391.1 文献标识码 :A 文章编号 :2095—6533(2017)01—0094—05 A multi-。strategyChinesedomain ontologyconcept extraction method ZHAISheping,MA M engyu,MA Chuanbin,GaoShan,GuoLin (SchoolofComputerScienceandTechnology,Xi’anUniversityofPostsandTelecommunications,Xi’an710121,China) Abstract:In orderto improve theprecision andrecallrateofChinese domain ontology concept extraction,amulti—strategyChinesedomainontologyconceptextractionmethodisproposed inthis paper.Inthismethod,themethodofpatternmatchingisusedto improvetheoriginalCharacter CombineM ethod.A userdictionary iscomposedafterscreeningconceptsetwithwordfilterand defectdetection,and then fedinto thesystem forthesecondwordsegmentation to getcandidate conceptset.Fused from theTFIDFmethodandinformationentropy,theTFIDFE method isused tocalculatetheconceptofweighttoobtainthedomainconceptset.Experimentalresultsshow that theproposedmethodhasagoodeffectontheaccuracy,recallandFvalueofdomainterm extraction. Keywords:ontologylearning,conceptlearning,CharacterCombineMethod(CCM),TFIDF,entropy 纯文本是 Web上数 目庞大但非结构化的数据 利用 N—V—N(名词一动词一名词)关系将单层的空 源 ,隐含 了大量以前未知的、潜在有用的信息,是本 间向量模型 (vectorspacemodel,VSM)映射成两层 体学习(ontologylearning,OL)重点研究的数据对

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档