- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于逆概念频率的词语相似度计算.pdf
第 54卷 第 2期 厦 门大学学报(自然科学版) Vo1.54 NO.2
2015年 3月 JournalofXiamenUniversity(NaturalScience) M ar.2O15
基于逆概念频率的词语相似度计算
孙 晶,张东站
(1/1门大学信息科学与技术学院,福建 厦门 361005)
捅要 :词语相似性度量在服务选择 、自然语言处理 、文献检索等领域具有重要的作用 ,目前通用 的词语相似度计算方法
是利用 《知网》对词 的概念解释得 出词语之间相似度 .对 《知 网》结构进行分析 ,认为利用 《知网》计算词 的相似度 的方法
中概念的4项基本结构的权重应该动态产生 ,并提 出区分度作为衡量 4项基本结构的动态权重.在分析现有研究基础
上 ,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了
一 种基于义原出现频次的义原权重计算方法 :逆概念频率 (inverseconceptfrequency,ICF).通过分析概念 的组织结构 ,
计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将 4个基本结构中的最
大义原 ICF权重作为基本结构的ICF权重.利用动态 ICF值逼近基本结构的区分度 ,进而计算词语相似度.通过对真实
数据的实验对 比可以看出ICF算法能有效提高计算词语相似度的准确率.相 比较传统算法平均前 160个词准确率从
3O.74 提高到 72.28 ,平均召回率从 15.87 提高到 49.64 .
关键词:知网;词语相似度;逆概念频率;义原权重
中图分类号:TP391.1 文献标志码 :A 文章编号 :0438—0479(2015)02—0257—06
现阶段 以互联网带动的信息技术的不断发展和 基于统计 的计算方法 :基于这样一个假设 ,语义
普及 ,如何从海量的信息资源中挖掘 出有价值的信息 相近的词 ,其上下文也应该相似.从大规模语料库 中
成为信息用户的关注点.信息资源形态迥异 ,使得采 统计 出被 比较词汇的相关上下文词汇,组成集合、向
用传统的以字符串匹配为基础 的信息检索系统逐渐 量化并计算 向量夹角余弦值 ,同时使用词的上下文信
被淘汰 ,取而代之的是 以计算词语之间的语义相似度 息的概率分布作为参考值 ,进而计算词语 的语义相
为核心的概念模型匹配的信息检索 ,因此提高词语相 似度.
似度的计算精度显得尤为重要. 在中文方面,文献 [1]利用词相关性知识计算词
词语是文章最基本 的组成单位,词语之间的关系 语相似度 .
也因为人们 的思考逻辑而变得复杂.词语相似度计算 基于本体的计算方法 :基于这样一个假设 ,两个
研究的是计算两个词语相似度的方法 ,是研究句子相 词语具有一定 的语义相似性 ,当且仅 当其在概念结构
似度的基础.词语相似性度量在服务选择、自然语言 层次网络 图中存在一条通路.本体能够准确描述概念
理解 、文献检索等领域具有重要 的作用.可见词语相 含义和概念之间的内在关联[2],并根据语义距离来计
似度研究有广阔的应用前景和重大研究价值. 算词语相似度,已经成为词语相似度研究的基础 ,当
现今对词语相似度计算主要分为两类 ,一种是基 前基于本体 的语义相似度计算方法 已经取得 了丰硕
于本体的计算方法 ,根据概念层次结构组织形式及概 的成果 ,本文研究的也是基于本体的计算方法.在英
念之间的上下位与同位关系来计算词语 的相似度.另 文研究中文献[3—4]对基于本体 的多种计算方法进行
外一种是基于统计 的方法 ,利用大规模语
您可能关注的文档
最近下载
- 档案整理及数字化投标方案(517页).doc VIP
- 2025解读新《监察法实施条例》核心要点与条文速览PPT学习课件(含文字稿).pptx VIP
- 铁路信号电缆配线作业.ppt VIP
- 2025江苏邳州农村商业银行招聘10人笔试历年典型考题及考点剖析附带答案详解.docx
- 采砂船水上船舶运输安全应急预案 .docx VIP
- 2025年自贡市中考英语试卷(含答案解析).docx
- 2024年北京昌平四年级(下)期末英语(含答案).pdf
- 七年级下册数学期末试卷.pdf VIP
- SH_T 3043-2014石油化工设备管道钢结构表面色和标志规定.pdf VIP
- 新人教版数学四年级上册课本练习题《练习一》可编辑可打印.pdf VIP
文档评论(0)