基于PageRank和HITS的Web结构挖掘算法研究.pdfVIP

基于PageRank和HITS的Web结构挖掘算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于PageRank和HITS的Web结构挖掘算法研究

维普资讯 第 l9卷 第4期 山 东 科 学 V01.19 No.4 2OO6年 8月 SHAND0NG SCⅡ CE Aug.20O6 文章编号:l002.4026(2006)O4.00l1.04 基于PageRank和HITS的Web结构挖掘算法研究 刘 栋 ,刘希玉 ,郝婷婷 (1.山东师范大学信息科学与工程学院,山东济南 250014;2.山东大学材料科学与工程学院,山东济南250061) 摘要:在对web结构挖掘的典型算法探讨的基础上,提出了一种 PageRank算法和HflS算法相结合的改进算 法,并对该算法进行了简要分析。 关键词:数据挖掘;Web结构挖掘 ;PageRank;HflS 中图分类号:TP301.6 文献标识码:A 随着Intemet的快速发展,Web正在成为一种新的数据源,其中汇集了大量信息。但是web具有无结 构、动态、组织复杂的特点,给用户搜索数据造成了很大困难。这就急需一种能自动地从 Web资源中发现、 获取信息的新技术,Web数据挖掘技术应运而生,并取得了一定的研究成果。本文分析了PageRank和HITS 算法,并在此基础上介绍了一种Web结构挖掘的改进算法。 1 Web数据挖掘分类 一 般来讲,Welb数据挖掘可以分为3类:welb内容挖掘(WebContentMiniIlg),Web结构挖掘(WebStructure Mining)~Web使用记录的挖掘(WebUsageMining)n。如图1所示。 图 IWeb数据挖掘分类 1.1 Web内容挖掘 web内容挖掘是从大量的web数据中发现并抽取有用信息的过程。这些数据既有文本和超文本数据, 也有图形、图像、语音等多媒体数据;既有来 自于数据库的结构化数据,也有用HTML标记的半结构化数据和 无结构的自由文本。其中,web内容挖掘可以分为:IR(Informationretrieve)方法和数据库方法。[2] 1.2 Web使用记录挖掘 web使用记录挖掘即通过挖掘用户的web日志记录,发现用户访问web页面的模式,得到有价值的信 息。这些数据包括:各类服务器 日志记录、浏览器 日志记录、用户注册信息、用户对话或交易信息等等。目前 这一方面的研究较多,并且出现了很多种有商用价值的web日志挖掘技术和工具。 收稿 日期:2006-03-01 基金项 目:“泰山学者”建设工程专项经费资助;山东省自然科学基金重大项 目(Z200,tG02),山东省教育厅计划项 目(/05GOI)。 作者简介:刘栋(1983.),男,硕士研究生,主要研究方向:数据挖掘,支持向量机。E-mail:ld0201@163.一 维普资讯 12 山 东 科 学 2O06链 1.3 Web结构挖掘 Web结构挖掘是从WWW链接结构关系网络中推导知识b]。它主要是针对 Web页面之间的超链接结 构、内部结构和URL中的目录路径结构进行挖掘,从中抽取知识,包括文档结构挖掘和站点结构挖掘。目 前,Web结构挖掘主要是基于超链接结构的挖掘。通过对超链接结构的研究分析,以提高搜索引擎的效率。 2 Web结构挖掘典型算法 目前,Web用户主要是使用搜索引擎在 Intemet上检索信息,但 目前的搜索引擎的效率不尽如人意,往往 会返回很大一部分重复的或者是与用户检索要求不相关的页面。由此,如何利用Web独有的结构特点,提 高搜索引擎的检索效率成为当前的一个研究热点问题。 目前基于超链接结构分析的web结构挖掘算法主要是将web看作为有向图或无向图的形式,结合一定 的启

文档评论(0)

ctuorn0371 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档