- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于PageRank和HITS的Web结构挖掘算法研究
维普资讯
第 l9卷 第4期 山 东 科 学 V01.19 No.4
2OO6年 8月 SHAND0NG SCⅡ CE Aug.20O6
文章编号:l002.4026(2006)O4.00l1.04
基于PageRank和HITS的Web结构挖掘算法研究
刘 栋 ,刘希玉 ,郝婷婷
(1.山东师范大学信息科学与工程学院,山东济南 250014;2.山东大学材料科学与工程学院,山东济南250061)
摘要:在对web结构挖掘的典型算法探讨的基础上,提出了一种 PageRank算法和HflS算法相结合的改进算
法,并对该算法进行了简要分析。
关键词:数据挖掘;Web结构挖掘 ;PageRank;HflS
中图分类号:TP301.6 文献标识码:A
随着Intemet的快速发展,Web正在成为一种新的数据源,其中汇集了大量信息。但是web具有无结
构、动态、组织复杂的特点,给用户搜索数据造成了很大困难。这就急需一种能自动地从 Web资源中发现、
获取信息的新技术,Web数据挖掘技术应运而生,并取得了一定的研究成果。本文分析了PageRank和HITS
算法,并在此基础上介绍了一种Web结构挖掘的改进算法。
1 Web数据挖掘分类
一 般来讲,Welb数据挖掘可以分为3类:welb内容挖掘(WebContentMiniIlg),Web结构挖掘(WebStructure
Mining)~Web使用记录的挖掘(WebUsageMining)n。如图1所示。
图 IWeb数据挖掘分类
1.1 Web内容挖掘
web内容挖掘是从大量的web数据中发现并抽取有用信息的过程。这些数据既有文本和超文本数据,
也有图形、图像、语音等多媒体数据;既有来 自于数据库的结构化数据,也有用HTML标记的半结构化数据和
无结构的自由文本。其中,web内容挖掘可以分为:IR(Informationretrieve)方法和数据库方法。[2]
1.2 Web使用记录挖掘
web使用记录挖掘即通过挖掘用户的web日志记录,发现用户访问web页面的模式,得到有价值的信
息。这些数据包括:各类服务器 日志记录、浏览器 日志记录、用户注册信息、用户对话或交易信息等等。目前
这一方面的研究较多,并且出现了很多种有商用价值的web日志挖掘技术和工具。
收稿 日期:2006-03-01
基金项 目:“泰山学者”建设工程专项经费资助;山东省自然科学基金重大项 目(Z200,tG02),山东省教育厅计划项 目(/05GOI)。
作者简介:刘栋(1983.),男,硕士研究生,主要研究方向:数据挖掘,支持向量机。E-mail:ld0201@163.一
维普资讯
12 山 东 科 学 2O06链
1.3 Web结构挖掘
Web结构挖掘是从WWW链接结构关系网络中推导知识b]。它主要是针对 Web页面之间的超链接结
构、内部结构和URL中的目录路径结构进行挖掘,从中抽取知识,包括文档结构挖掘和站点结构挖掘。目
前,Web结构挖掘主要是基于超链接结构的挖掘。通过对超链接结构的研究分析,以提高搜索引擎的效率。
2 Web结构挖掘典型算法
目前,Web用户主要是使用搜索引擎在 Intemet上检索信息,但 目前的搜索引擎的效率不尽如人意,往往
会返回很大一部分重复的或者是与用户检索要求不相关的页面。由此,如何利用Web独有的结构特点,提
高搜索引擎的检索效率成为当前的一个研究热点问题。
目前基于超链接结构分析的web结构挖掘算法主要是将web看作为有向图或无向图的形式,结合一定
的启
文档评论(0)