基于术语同义关系的文档相似度研究.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于术语同义关系的文档相似度研究.pdf

2O17正 河北大学学报(自然科学版) 2017 第 37卷 第 1期 JournalofHebeiUniversity(NaturalScienceEdition) Vol_37NO.1 DOI:10.3969/j.issn.1000—1565.2017.01.016 基于术语同义关系的文档相似度研究 张锡忠 ,徐建 民 (1.保定市教育考试院信息处,河北 保定 071000; 2。河北大学 计算机科学与技术学院,河北 保定 071002) 摘 要 :基于向量空间的文档相似度算法假设特征元素间关系为正交,-32篇文档采用了具有相近语义 的不同术语描述时,该方法不能准确反映二者的相似性.针对这种情况,文章利用词语的同义关系,在给出术 语与术语组相似度 、术语组和术语组间相似度的概念及算法的基础上 ,给 出一种基于词语相似关系的文档相 似度计算方法.实验采用科技文献类文档和新 闻报道类文档作为测试集合 ,比较新方法和向量空间算法的分 类性能 ,结果显示新方法可提高文档分类的准确性. 关键词 :同义词 ;词语相似度;文档相似度 中图分类号 :G353;TP393 文献标志码 :A 文章编号 :1000—1565(2017)01—0108—05 ZHANG Xizhong ,XU Jianmin (1.InstituteofInformationTechnology,BaodingEducationExaminationsAuthority,Baoding071000,China; 2.SchoolofComputerScienceandTechnology,HebeiUniversity,Baoding071002,China) Abstract:Becausevectorspacemodel(VSM )assumesthattermsindifferentdocumentsiSorthogo— nal,whendifferentdocumentsaredescribedbydifferentterms,VSM can’taccuratelyreflectthesimilarity betweenthem.Forthisproblem ,basedon giving definition andcomputingmethodofsimilaritybetween twotermsset,thispapergivesaquantificationmethodtocalculatesimilaritybetweentwodocuments.Our experimentsadoptscienceandtechnologyliteraturedocumentsandnewsstoriestOtesttheclassificationaccu— racyofVSM andthenew method,resultsindicatethatthenew methodcanireproveclassificationaccuracy. Keywords:synonymous;similaritybetweentWOterms;similaritybetweentWOdocuments 文本相似度作为数据挖掘的一个热点,在互联网搜索引擎 、智能问答 、机器翻译 、信息检索和社区发现等 方面有着广泛的应用 ,主要包括文档之间相似度,短语和篇章之 间相似度,短语和文章段落之 间相似度 等.传统 的文档之间相似度的计算方法主要包括基于向量空间模型方法嘲,基于集合运算模型方法Ⅲ ,基于 文档结构方法 和基于引文图方法嘲等.基于空间向量的方法和基于集合运算 的方法都假设特征元素之 间 的关系是正交的,过分依赖于文档特征之间交集的大小嘲.基于文档结构的方法和基于引文图方法主要用于 收稿 日期 i2016—1O一1O 基金项 目:河北省 自然科学基金资助项 目(F2015201142);河北省社会科学基金资助项 目(HB15SH064) 第一作者 :张锡忠(

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档