基于Ｗｅｂ结构挖掘算法的网站构建.docVIP

下载本文档

0
0
约5.94千字
约 9页
2018-03-16 发布于北京
举报
版权申诉

基于Ｗｅｂ结构挖掘算法的网站构建.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Ｗｅｂ结构挖掘算法的网站构建　　摘要： Web 结构挖掘是对Web 的链接结构进行分析。该文概述Web结构挖掘技术，列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究，指出在网站设计规划时的策略以提高网站的价值。　　关键词： Web结构挖掘；PageRank；HITS；算法　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)34-1619-02 　　Building the Web Site Based Web Structure Mining Arithmetic 　　YE Lin-li1, LIN Song-kai2 　　(1.Computer and Information College, Fujian Agriculture and Forest University, Fuzhou 350002, China; 2.School of Post and Telecommunications of Fujian Province, Fuzhou 350008, China) 　　Abstract: This paper introduces the conception of Web structure mining, and analyses the authoritative algorithms based on Web hyperlink structure. At the end, correlative application on increasing the rank of the website by Web structure mining algorithms. 　　key words: web structure mining; pagerank; hyperlink-induced topic search (HITS); agorithm 　　1 引言　　数据挖掘是将人工智能技术和数据库技术紧密结合发展出的一门新的技术，利用计算机从庞大的数据中智能地、自动地抽取有价值的知识模式，以满足人们不同应用的需要。随着互联网的普及和迅猛发展、Web上信息量的爆炸式增长，网上的资源得到极大丰富，但也充斥着大量的垃圾信息，人们迫切需要能从这些纷繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成熟完善，人们自然而然想到了要把数据挖掘技术应用到Web上来。　　Web挖掘指在WWW 上挖掘潜在的、有用的模式及隐藏的信息过程。根据对Web数据的感兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘（Web Content mining）、 Web结构挖掘（Web structure mining）、Web 用法挖掘（Web usage Mining）　　其中Web 结构挖掘是对Web 的链接结构进行分析，以对超链接分析来评估基础Web 资源，从而发现有用模式，提高搜索质量。　　2 Web结构挖掘综述　　传统的WEB搜索引擎大多数是基于关键字匹配的，返回的结果是包含查询项的文档，也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性，破坏搜索引擎结果的客观性和准确性。另外，有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面，并且目录大多靠人工维护，主观性强，费用高，更新速度慢。　　Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML，XML表示成的树开结构，以及文档URL中的目录路径结构等。Web页之间的超链接结构中包含了许多有用的信息，当网页A到网页B存在一个超链接时，则说明网页A的作者认为网页B的内容非常重要，且两个网页的内容具有相似的主题。因此，指向一个文档的超链接体现了该文档的被引用情况。如果大量的链接都指向了同一个网页，我们就认为它是一个权威页。这就类似于论文对参考文献的引用，如果某一篇文章经常被引用，就说明它非常重要。这种思想有助于对搜索引擎的返回结果进行相关度排序。从WWW的组织结构和链接关系中推导知识。通过对Web站点的结构进行分析、变形和归纳，将Web页面进行分类，分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式，确定不同页面间的相似度和关联度信息。定位相关主题的权威站点，可以极大的提高检索结果的质量。　　基于这种超链分析的思想，Sergey Brin和Lawrence Page在1998年提出了PageRank算法，同年J. Kleinberg提出了HITS算法，其它一些学者也相继提出了另外的链接分析算法，如SALS