- 9
- 0
- 约2.09万字
- 约 7页
- 2015-10-03 发布于湖北
- 举报
XML文档聚类中基于语义的特征词权重计算方法.pdf
V01.12
第12卷第2期 长沙理工大学学报(自然科学版) No.2
of ofScienceand
2015年6月 Journal Science) Jun.2015
ChangshaUniversity Technology(Natural
文章编号:1672—9331(2015)02—0072—06
XML文档聚类中基于语义的特征词权重计算方法
龙鹏飞,石 奇
(长沙理工大学计算机与通信工程学院,湖南长沙410004)
摘要:在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量
的关键因素。针对XML文档检索结果聚类中TFXIDF方法的频率因子和长度因子处理上的不合理和不
能突显重要词条的缺点,提出了一种基于“频率因子”和“长度因子”的新权重方案。并在建立向量空间模型
时引入LSI理论,在词条之间搭建了语义关系,减少了原词一文档矩阵中包含的噪声,聚类速度和精度都有
所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚
类速度和效果上都有所提高和改善。
关键词:潜在语义索引;检索结果聚类;权重算法;聚类算法
中图分类号:TP311.13 文献标识码:A
Term basedonsemanticaboutXML
weightingapproach clustering
LONG
Peng—fei,SHIQi
(Schoolof andCommunication
Computer Engineering,ChangshaUniversity
of and
Science 410004,China)
Technology,Changsha
XMLsearchresultsisaneffectiveto
Abstract:Clustering wayimproveperformance.The
factor the ofthe ishowtomeasuredistancebetweenXML
key affectingquality clustering
documents.Inviewofterm searchresuhs
weightingalgorithms,TF—IDF,aboutclustering
which
isunreasonabletomakeuseoflinearandunableto the of
emphasizesignificancekey
termwhichcontribute tothe
contentofatext,anew basedonfre—
mainly
您可能关注的文档
最近下载
- 石竹山签谱详解100.doc VIP
- 中医临床诊疗术语标准及应用.docx VIP
- 2025年湘西土家族苗族自治州民族中医院医护人员招聘备考试题及答案解析.docx VIP
- 石竹山签谱全100签详解.pdf VIP
- 2023年高考历史真题:2023年高考山东历史真题及答案.pdf VIP
- 2025-2026学年人教版八年级数学上册期末考试试卷.pdf VIP
- 2023年高考历史真题试卷(新课标卷)(含答案及详细解析) .pdf VIP
- 2026中考英语复习《主谓一致》课件.pptx
- 2024年湘西土家族苗族自治州民族中医院医护人员招聘备考试题及答案解析.docx VIP
- 2025-2026学年小学科学六年级上册青岛版(六三制2024)教学设计合集.docx
原创力文档

文档评论(0)