基于Ｗｅｂ结构挖掘的ＨＩＴＳ算法研究.docVIP

下载本文档

0
0
约6.68千字
约 11页
2018-03-16 发布于北京
举报
版权申诉

基于Ｗｅｂ结构挖掘的ＨＩＴＳ算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Ｗｅｂ结构挖掘的ＨＩＴＳ算法研究　　摘要：随着网络与数据挖掘技术的发展，Web数据挖掘得到了较多的研究。本文从Web结构挖掘的角度出发，在分析了Web结构挖掘技术的基础上，研究了HITS算法。针对HITS算法的多主题性、无关页面、无关链接等问题，提出了HITS算法改进算法。　　关键词：Web结构挖掘；HITS算法；根集向量投影法；基本集缩减法　　中图分类号：TP312文献标识码：A文章编号：1009-3044(2008)20-30218-03 　　　　Research on the Algorithm of HITS Based on Web Structure Mining 　　LIU Jun,WANG Xiao-Ling,TANG Quan 　　(School of Information Science and Engineering,Central South University,Changsha 410083,China) 　　Abstract:With the development of the internet and the data mining，more and more research work are come out with the Web data mining.From the direction of Web structure mining and on the base of analyzing the technology of Web structure mining, this paper studies the algorithm of HITS．Comes up with the improvement algorithm of the HITS algorithm aim for the multi―subjects of the algorithm of HITS，unrelated pages，irrelevant links and so on．　　Key words:Web structure mining;HITS algorithm;Root-set eigenvector projection method;Base-set downsizing method 　　　　1 引言　　　　最近几年，许多研究者发现，WWW上超链结构是个非常丰富和重要的资源，如果能够充分利用的话，可以极大的提高检索结果的质量。基于这种超链分析的思想，Sergey Brin和Lawrence Page在1998年提出了PageRank算法，同年J. Kleinberg提出了HITS算法，其它一些学者也相继提出了另外的链接分析算法，如SALSA，PHITS，Bayesian等算法。这些算法有的已经在实际的系统中实现和使用，并且取得了良好的效果。　　　　2 Web结构挖掘简述　　　　Web结构挖掘的目的是发现页面的结构(文档内部结构)和Web的结构(文档间超链结构)，利用这些结构所蕴涵的信息可以帮助我们发现很多有用的模式或知识。如果两篇文献具有同被引(Co-citation)和耦合(Coupling)等关系，则这两篇文献具有相互关系或相互联系。充分利用这些关系，能够客观地反映科学活动中许多隐蔽的和深层次的相关关系，显示出有用的结构[1]。　　M．R．Henzinger认为目前的Web超链接分析大多基于以下两条基本假设[2]：　　假设1：从Web网页A指向网页B的超链接是网页A作者对网页B的推荐。　　假设2：如果一条超链接将网页A和网页B相互链接起来，则网页A和网页B可能有共同的主题(Topic)。　　基于上面的两个基本假设，我们还可以引申出以下几个假设[2-4]：　　假设3：一个页面被多次引用，即很多页面有指向它的链接，则这个页面很重要。　　假设4：一个页面尽管没有被多次引用，但被一个重要页面引用，则这个页面也可能很重要。　　假设5：一个页面的重要性被均匀分布并传递到它所引用的页面。　　假设6：如果页面P和q同被引，则它们可能是相关的，同被引度越大，相关度越大。　　假设7：如果页面P和q耦合，则它们可能是相关的，耦合度越大，相关度越大。　　　　3 HITS算法简述　　　　J. Kleinberg提出的HITS算法中引入了Hub网页，Hub网页是提供指向权威网页链接集合的WEB网页。一般来说，好的Hub网页指向许多好的权威网页；好的权威网页是有许多好的Hub网页指向的WEB网页。这种Hub与Authorities网页之间的相互加强关系，可用于权威网页的发现和WEB结构和资源