XML文档聚类中基于语义的特征词权重计算方法.pdfVIP

  • 9
  • 0
  • 约2.09万字
  • 约 7页
  • 2015-10-03 发布于湖北
  • 举报

XML文档聚类中基于语义的特征词权重计算方法.pdf

XML文档聚类中基于语义的特征词权重计算方法.pdf

V01.12 第12卷第2期 长沙理工大学学报(自然科学版) No.2 of ofScienceand 2015年6月 Journal Science) Jun.2015 ChangshaUniversity Technology(Natural 文章编号:1672—9331(2015)02—0072—06 XML文档聚类中基于语义的特征词权重计算方法 龙鹏飞,石 奇 (长沙理工大学计算机与通信工程学院,湖南长沙410004) 摘要:在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量 的关键因素。针对XML文档检索结果聚类中TFXIDF方法的频率因子和长度因子处理上的不合理和不 能突显重要词条的缺点,提出了一种基于“频率因子”和“长度因子”的新权重方案。并在建立向量空间模型 时引入LSI理论,在词条之间搭建了语义关系,减少了原词一文档矩阵中包含的噪声,聚类速度和精度都有 所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚 类速度和效果上都有所提高和改善。 关键词:潜在语义索引;检索结果聚类;权重算法;聚类算法 中图分类号:TP311.13 文献标识码:A Term basedonsemanticaboutXML weightingapproach clustering LONG Peng—fei,SHIQi (Schoolof andCommunication Computer Engineering,ChangshaUniversity of and Science 410004,China) Technology,Changsha XMLsearchresultsisaneffectiveto Abstract:Clustering wayimproveperformance.The factor the ofthe ishowtomeasuredistancebetweenXML key affectingquality clustering documents.Inviewofterm searchresuhs weightingalgorithms,TF—IDF,aboutclustering which isunreasonabletomakeuseoflinearandunableto the of emphasizesignificancekey termwhichcontribute tothe contentofatext,anew basedonfre— mainly

文档评论(0)

1亿VIP精品文档

相关文档