- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于术语同义关系的文档相似度研究.pdf
2O17正 河北大学学报(自然科学版) 2017
第 37卷 第 1期 JournalofHebeiUniversity(NaturalScienceEdition) Vol_37NO.1
DOI:10.3969/j.issn.1000—1565.2017.01.016
基于术语同义关系的文档相似度研究
张锡忠 ,徐建 民
(1.保定市教育考试院信息处,河北 保定 071000;
2。河北大学 计算机科学与技术学院,河北 保定 071002)
摘 要 :基于向量空间的文档相似度算法假设特征元素间关系为正交,-32篇文档采用了具有相近语义
的不同术语描述时,该方法不能准确反映二者的相似性.针对这种情况,文章利用词语的同义关系,在给出术
语与术语组相似度 、术语组和术语组间相似度的概念及算法的基础上 ,给 出一种基于词语相似关系的文档相
似度计算方法.实验采用科技文献类文档和新 闻报道类文档作为测试集合 ,比较新方法和向量空间算法的分
类性能 ,结果显示新方法可提高文档分类的准确性.
关键词 :同义词 ;词语相似度;文档相似度
中图分类号 :G353;TP393 文献标志码 :A 文章编号 :1000—1565(2017)01—0108—05
ZHANG Xizhong ,XU Jianmin
(1.InstituteofInformationTechnology,BaodingEducationExaminationsAuthority,Baoding071000,China;
2.SchoolofComputerScienceandTechnology,HebeiUniversity,Baoding071002,China)
Abstract:Becausevectorspacemodel(VSM )assumesthattermsindifferentdocumentsiSorthogo—
nal,whendifferentdocumentsaredescribedbydifferentterms,VSM can’taccuratelyreflectthesimilarity
betweenthem.Forthisproblem ,basedon giving definition andcomputingmethodofsimilaritybetween
twotermsset,thispapergivesaquantificationmethodtocalculatesimilaritybetweentwodocuments.Our
experimentsadoptscienceandtechnologyliteraturedocumentsandnewsstoriestOtesttheclassificationaccu—
racyofVSM andthenew method,resultsindicatethatthenew methodcanireproveclassificationaccuracy.
Keywords:synonymous;similaritybetweentWOterms;similaritybetweentWOdocuments
文本相似度作为数据挖掘的一个热点,在互联网搜索引擎 、智能问答 、机器翻译 、信息检索和社区发现等
方面有着广泛的应用 ,主要包括文档之间相似度,短语和篇章之 间相似度,短语和文章段落之 间相似度
等.传统 的文档之间相似度的计算方法主要包括基于向量空间模型方法嘲,基于集合运算模型方法Ⅲ ,基于
文档结构方法 和基于引文图方法嘲等.基于空间向量的方法和基于集合运算 的方法都假设特征元素之 间
的关系是正交的,过分依赖于文档特征之间交集的大小嘲.基于文档结构的方法和基于引文图方法主要用于
收稿 日期 i2016—1O一1O
基金项 目:河北省 自然科学基金资助项 目(F2015201142);河北省社会科学基金资助项 目(HB15SH064)
第一作者 :张锡忠(
您可能关注的文档
- 基于ATRChk1P53信号通路探讨三七总皂苷对自然衰老大鼠睾丸生殖细胞DNA损伤的保护作用.pdf
- 基于C8051F120的采煤机漏电保护装置的设计.pdf
- 基于China-NIAHS框架下的林业文化遗产保护探讨.pdf
- 基于DSP异步电动机保护装置的设计.pdf
- 基于DSP的电动执行机构相序检测及缺相保护方法.pdf
- 基于GIS的卧龙自然保护区大熊猫生境选择与利用.pdf
- 基于ISSR方法的芦笋育种亲本间亲缘关系分析.pdf
- 基于LabVIEW的发电机继电保护系统设计与仿真.pdf
- 基于Landsat长时间序列数据估算树高和生物量.pdf
- 基于Linux+Qt矿用柴油车智能保护装置的设计与实现.pdf
文档评论(0)