WordNet在文本聚类中的应用研究.pdfVIP

下载本文档

11
0
约 4页
2017-09-12 发布于重庆
举报

WordNet在文本聚类中的应用研究.pdf

《现代图书情报技术》版权所有，欢迎下载引用！  请注明引用地址：ＷｏｒｄＮｅｔ在文本聚类中的应用研究［Ｊ］，现代图书情报技术，２００９（１０）：６７－７０．总第１８４期　２００９年　第１０期ＷｏｒｄＮｅｔ在文本聚类中的应用研究 １，３２２饶洋辉　叶　良　程　洁１（中国科学院国家科学图书馆　北京１００１９０）２（中国科学院计算机网络信息中心　北京１００１９０）３（中国科学院研究生院　北京１０００４９）【摘要】针对文本聚类算法在应用方面存在的“维灾”、簇的命名以及大规模的问题，运用ＷｏｒｄＮｅｔ词典进行词列表的降维和词干化，提出并实现基于词性标注和ＷｏｒｄＮｅｔ相结合的并行文本聚类方法，最后和基于Ｐｏｒｔｅｒ词干化的文本聚类方法进行性能的比较。实验结果表明，该方法能大幅度降低词列表的维度，提高聚类的准确率和召回率，同时增强各个簇的可理解性。【关键词】ＷｏｒｄＮｅｔ　词性标注　文本聚类　并行Ｋ－Ｍｅａｎｓ【分类号】ＴＰ３１１ＲｅｓｅａｒｃｈｏｎｔｈｅＡｐｐｌｉｃａｔｉｏｎｏｆＷｏｒｄＮｅｔｉｎＴｅｘｔＣｌｕｓｔｅｒｉｎｇ１，３２２ＲａｏＹａｎｇｈｕｉ　ＹｅＬｉａｎｇ　ＣｈｅｎｇＪｉｅ１（ＮａｔｉｏｎａｌＳｃｉｅｎｃｅＬｉｂｒａｒｙ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）２（ＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋＩｎｆｏｒｍａｔｉｏｎＣｅｎｔｅｒ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）３（ＧｒａｄｕａｔｅＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１０００４９，Ｃｈｉｎａ）【Ａｂｓｔｒａｃｔ】Ｔｏｄｅａｌｗｉｔｈ“ｄｉｓａｓｔｅｒｏｆｄｉｍｅｎｓｉｏｎａｌｉｔｙ”，ｃｌｕｓｔｅｒｉｄｅｎｔｉｆｙｉｎｇａｎｄｌａｒｇｅ－ｓｃａｌｅｐｒｏｂｌｅｍｓａｒｉｓｉｎｇｉｎｔｅｘｔｃｌｕｓｔｅ ｒｉｎｇａｌｇｏｒｉｔｈｍ’ｓａｐｐｌｉｃａｔｉｏｎｓ，ａｐａｒａｌｌｅｌｔｅｘｔｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｉｓｐｒｏｐｏｓｅｄａｎｄｉｍｐｌｅｍｅｎｔｅｄ，ｗｈｉｃｈｕｓｅｓＷｏｒｄＮｅｔｔｏｔｈｅｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎｏｆｔｈｅｗｏｒｄｌｉｓｔａｎｄｓｔｅｍｍｉｎｇｂａｓｅｄｏｎＰＯＳｔａｇｇｉｎｇａｎｄＷｏｒｄＮｅｔ．ＣｏｍｐａｒｉｎｇｗｉｔｈｔｈｅＰｏｒｔｅｒＳｔｅｍｍｉｎｇｍｅｔｈｏｄ，ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄｃａｎｓｕｂｓｔａｎｔｉａｌｌｙｒｅｄｕｃｅｔｈｅｄｉｍｅｎｓｉｏｎｏｆｗｏｒｄｌｉｓｔ，ｉｍ ｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙａｎｄｒｅｃａｌｌｒａｔｅｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｎｄｈａｖｅａｂｅｔｔｅｒｕｎｄｅｒｓｔａｎｄｉｎｇｏｆｅａｃｈｃｌｕｓｔｅｒ．【Ｋｅｙｗｏｒｄｓ】ＷｏｒｄＮｅｔ　ＰＯＳｔａｇｇｉｎｇ　Ｔｅｘｔｃｌｕｓｔｅｒｉｎｇ　ＰａｒａｌｌｅｌＫ－Ｍｅａｎｓ１　研究背景　　文本聚类是指按照文档的相似度将其分为不同的集合，使得同一集合中的文档具有较大的相似性，而不同集合中的文档有较大的区别。文本聚类在话题检测、信息组织与检索等领域具有广泛的应用，已有的算法包括层次［１］法、划分法、基于密度的方法等。对于文本聚类算法的性能，国内外已有诸多的比较研究。ＭｉｃｈａｅｌＳｔｅｉｎｂａｃｈ等［２］重点比较分析了层次与划分Ｋ－Ｍｅａｎｓ的多种性能，发现划分法不仅计算复杂度要低于层次法，而且聚类效果［３，４］也更好。Ｚｈａｏ，Ｋａｒｙｐｉｓ也通过大量的实验得出了上述结论。此外，针对Ｋ－Ｍｅａｎｓ等聚类算法本身存在的问

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

WordNet在文本聚类中的应用研究.pdfVIP