基于Kcenter和信息增益Web搜索结果聚类方法.docVIP

下载本文档

4
0
约8.81千字
约 16页
2018-08-28 发布于福建
举报
版权申诉

基于Kcenter和信息增益Web搜索结果聚类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Kcenter和信息增益Web搜索结果聚类方法

基于Kcenter和信息增益Web搜索结果聚类方法　　?? 收稿日期：2008-01-22；　　修回日期：2008-03-19 　　基金项目：国家“863”计划资助项目（2004AA1Z2520）；军队网络互联与信息安全策略研究资助项目（2006QB1069）　　?? 　　作者简介：丁振国（1959-），男，陕西三原人，硕导，主要研究方向为计算机网络与信息处理技术；孟星（1984-），女，硕士研究生(emeng_841@163.com). 　　　　（西安电子科技大学计算机学院西安 710071）　　摘要：　　基于K-center和信息增益的概念，将改进后的FPF（furthest-point-first）算法用于Web搜索结果聚类，提出了聚类标志方法，使得聚类呈现出的结果更易于用户理解，给出了评价聚类质量的模型。将该算法与Lingo，K-means算法进行比较，其结果表明，本算法能够较好地平衡聚类质量和速度，更加适用于Web检索聚类。　　关键词：Web文档；聚类；聚类标志； K-center；信息增益　　中图分类号：TP183 　　文献标志码：A 　　文章编号：1001-3695(2008)10-3125-03 　　Web search result clustering based on K-center and information gain 　　DING Zhen-guo MENG Xing 　　(College of Computer Science Xidian University Xi’an 710071 China) 　　Abstract: 　　Based on K-center and information gain this paper represented a version of modified FPF algorithm and cluster labeling algorithm on Web search clustering made the result better understood. At last presented a simple and intuitionistic criterion NMI for estimating cluster quality. The proposed solution was evaluated in search results returned from actual Web search engine and compared with other methods like Lingo K-means. The result proves that the algorithm can balance better clustering time and quality and meets the requirements of Web searching clustering. 　　??Key words：Web document; clustering; cluster labeling; K-center; information gain 　　0引言?? 　　随着网络和信息技术的发展，Web带来了人们使用和发现信息的革命，为了帮助用户快速准确地获得所需要的信息，涌现出了许多著名的搜索引擎。搜索引擎(search engine)是目前 Web 信息检索的主要工具，大约有 85%的用户是通过搜索引擎寻找自己需要的 Web信息[1]。目前搜索引擎的状况还不能令人十分满意。对于用户提交的检索要求，现存的搜索引擎，如Google、Yahoo、 MSN和百度等通常返回给用户一长串结果列表，用户需要在大量的搜索结果中寻找自己需要的信息，这往往带来很多不便。例如用户想在百度检索汽车引擎方面的信息，输入关键字“引擎”后，在返回的网页信息中，排在前列的内容基本都是关于“搜索引擎”方面的知识；而“汽车引擎”的内容可能出现在100位以后。在如今搜索引擎普遍采用相关度排序的情况下，用户将不得不经历一系列无关网页后才会获取到自己想要的内容。这种检索方式显然是存在缺陷的。?? 　　为了解决上述问题，自动有效组织Web搜索结果是一个巨大挑战，对搜索结果进行聚类是一种帮助用户导航浏览以及快速准确地查找所需信息的较好途径。Web检索聚类是一种无监督的方式，将搜索的结果自动地形成类别。综合Zamir等人[2]描述的聚类算法的几个重要指标，得出聚类的质量和速度是衡量聚类算法的两大基本指标，但是现在的很多聚类算法不能很好地平衡两者。经典聚类算法K-means，虽然在时间上占有优势，但是要求事先指