WordNet在文本聚类中的应用研究.pdfVIP

  • 11
  • 0
  • 约 4页
  • 2017-09-12 发布于重庆
  • 举报
《现代图书情报技术》版权所有,欢迎下载引用!  请注明引用地址:WordNet在文本聚类中的应用研究 [J],现代图书情报技术,2009(10):67-70. 总第184期 2009年 第10期 WordNet在文本聚类中的应用研究 1,3 2 2 饶洋辉  叶 良 程 洁 1(中国科学院国家科学图书馆 北京 100190) 2(中国科学院计算机网络信息中心 北京 100190) 3(中国科学院研究生院 北京 100049) 【摘要】针对文本聚类算法在应用方面存在的“维灾”、簇的命名以及大规模的问题,运用WordNet词典进行词列 表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化 的文本聚类方法进行性能的比较。实验结果表明,该方法能大幅度降低词列表的维度,提高聚类的准确率和召回 率,同时增强各个簇的可理解性。 【关键词】WordNet 词性标注 文本聚类 并行K-Means 【分类号】TP311 ResearchontheApplicationofWordNetinTextClustering 1,3 2 2 RaoYanghui YeLiang ChengJie 1(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China) 2(ComputerNetworkInformationCenter,ChineseAcademyofSciences,Beijing100190,China) 3(GraduateUniversityofChineseAcademyofSciences,Beijing100049,China) 【Abstract】Todealwith“disasterofdimensionality”,clusteridentifyingandlarge-scaleproblemsarisingintextcluste ringalgorithm’sapplications,aparalleltextclusteringmethodisproposedandimplemented,whichusesWordNettothe dimensionalityreductionofthewordlistandstemmingbasedonPOStaggingandWordNet.ComparingwiththePorter Stemmingmethod,theexperimentalresultsshowthatthismethodcansubstantiallyreducethedimensionofwordlist,im provetheaccuracyandrecallrateoftheclusteringandhaveabetterunderstandingofeachcluster. 【Keywords】WordNet POStagging Textclustering ParallelK-Means 1 研究背景   文本聚类是指按照文档的相似度将其分为不同的集合,使得同一集合中的文档具有较大的相似性,而不同集 合中的文档有较大的区别。文本聚类在话题检测、信息组织与检索等领域具有广泛的应用,已有的算法包括层次 [1] 法、划分法、基于密度的方法等 。对于文本聚类算法的性能,国内外已有诸多的比较研究。MichaelSteinbach等 [2] 重点比较分析了层次与划分K-Means的多种性能 ,发现划分法不仅计算复杂度要低于层次法,而且聚类效果 [3,4] 也更好。Zhao,Karypis也通过大量的实验得出了上述结论 。此外,针对 K-Means等聚类算法本身存在的问

文档评论(0)

1亿VIP精品文档

相关文档