XML文档聚类中基于语义的特征词权重计算方法.pdfVIP

下载本文档

9
0
约2.09万字
约 7页
2015-10-03 发布于湖北
举报

XML文档聚类中基于语义的特征词权重计算方法.pdf

V01．12 第12卷第2期长沙理工大学学报(自然科学版) No．2 of ofScienceand 2015年6月 Journal Science) Jun．2015 ChangshaUniversity Technology(Natural 文章编号：1672—9331(2015)02—0072—06 XML文档聚类中基于语义的特征词权重计算方法龙鹏飞，石奇 (长沙理工大学计算机与通信工程学院，湖南长沙410004) 摘要：在XML文档检索中，结果聚类是一种改善检索效果的有效方法，其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TFXIDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点，提出了一种基于“频率因子”和“长度因子”的新权重方案。并在建立向量空间模型时引入LSI理论，在词条之间搭建了语义关系，减少了原词一文档矩阵中包含的噪声，聚类速度和精度都有所提高。在IEEE无类别信息数据集上试验表明，与同类相似度计算方法和聚类方法相比，本研究方法在聚类速度和效果上都有所提高和改善。关键词：潜在语义索引；检索结果聚类；权重算法；聚类算法中图分类号：TP311．13 文献标识码：A Term basedonsemanticaboutXML weightingapproach clustering LONG Peng—fei，SHIQi (Schoolof andCommunication Computer Engineering，ChangshaUniversity of and Science 410004，China) Technology，Changsha XMLsearchresultsisaneffectiveto Abstract：Clustering wayimproveperformance．The factor the ofthe ishowtomeasuredistancebetweenXML key affectingquality clustering documents．Inviewofterm searchresuhs weightingalgorithms，TF—IDF，aboutclustering which isunreasonabletomakeuseoflinearandunableto the of emphasizesignificancekey termwhichcontribute tothe contentofatext，anew basedonfre— mainly

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

XML文档聚类中基于语义的特征词权重计算方法.pdfVIP