基于逆概念频率的词语相似度计算.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于逆概念频率的词语相似度计算.pdf

第 54卷 第 2期 厦 门大学学报(自然科学版) Vo1.54 NO.2 2015年 3月 JournalofXiamenUniversity(NaturalScience) M ar.2O15 基于逆概念频率的词语相似度计算 孙 晶,张东站 (1/1门大学信息科学与技术学院,福建 厦门 361005) 捅要 :词语相似性度量在服务选择 、自然语言处理 、文献检索等领域具有重要的作用 ,目前通用 的词语相似度计算方法 是利用 《知网》对词 的概念解释得 出词语之间相似度 .对 《知 网》结构进行分析 ,认为利用 《知网》计算词 的相似度 的方法 中概念的4项基本结构的权重应该动态产生 ,并提 出区分度作为衡量 4项基本结构的动态权重.在分析现有研究基础 上 ,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了 一 种基于义原出现频次的义原权重计算方法 :逆概念频率 (inverseconceptfrequency,ICF).通过分析概念 的组织结构 , 计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将 4个基本结构中的最 大义原 ICF权重作为基本结构的ICF权重.利用动态 ICF值逼近基本结构的区分度 ,进而计算词语相似度.通过对真实 数据的实验对 比可以看出ICF算法能有效提高计算词语相似度的准确率.相 比较传统算法平均前 160个词准确率从 3O.74 提高到 72.28 ,平均召回率从 15.87 提高到 49.64 . 关键词:知网;词语相似度;逆概念频率;义原权重 中图分类号:TP391.1 文献标志码 :A 文章编号 :0438—0479(2015)02—0257—06 现阶段 以互联网带动的信息技术的不断发展和 基于统计 的计算方法 :基于这样一个假设 ,语义 普及 ,如何从海量的信息资源中挖掘 出有价值的信息 相近的词 ,其上下文也应该相似.从大规模语料库 中 成为信息用户的关注点.信息资源形态迥异 ,使得采 统计 出被 比较词汇的相关上下文词汇,组成集合、向 用传统的以字符串匹配为基础 的信息检索系统逐渐 量化并计算 向量夹角余弦值 ,同时使用词的上下文信 被淘汰 ,取而代之的是 以计算词语之间的语义相似度 息的概率分布作为参考值 ,进而计算词语 的语义相 为核心的概念模型匹配的信息检索 ,因此提高词语相 似度. 似度的计算精度显得尤为重要. 在中文方面,文献 [1]利用词相关性知识计算词 词语是文章最基本 的组成单位,词语之间的关系 语相似度 . 也因为人们 的思考逻辑而变得复杂.词语相似度计算 基于本体的计算方法 :基于这样一个假设 ,两个 研究的是计算两个词语相似度的方法 ,是研究句子相 词语具有一定 的语义相似性 ,当且仅 当其在概念结构 似度的基础.词语相似性度量在服务选择、自然语言 层次网络 图中存在一条通路.本体能够准确描述概念 理解 、文献检索等领域具有重要 的作用.可见词语相 含义和概念之间的内在关联[2],并根据语义距离来计 似度研究有广阔的应用前景和重大研究价值. 算词语相似度,已经成为词语相似度研究的基础 ,当 现今对词语相似度计算主要分为两类 ,一种是基 前基于本体 的语义相似度计算方法 已经取得 了丰硕 于本体的计算方法 ,根据概念层次结构组织形式及概 的成果 ,本文研究的也是基于本体的计算方法.在英 念之间的上下位与同位关系来计算词语 的相似度.另 文研究中文献[3—4]对基于本体 的多种计算方法进行 外一种是基于统计 的方法 ,利用大规模语

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档