WEB挖掘算法介绍.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * 关于引用分析的研究要比链接分析早得多 * * * * * * * * * * * Web站点结构的预处理 通过相应的搜索算法对Web网站进行遍历以找到PageLink,PageViewSet,PageViewLink的集合。 算法7-4:生成PageViewSet和PageViewLink算法 算法7-4 GPVS(Generating Page View Set) 输入: index.htm。 输出: PageViewSet, PageViewLinkSet。 (1)PageViewSet← GetFirstPageVeiw(/index.htm); (2)PageViewLinkSet←NULL; (3)FOR each pageview ? PageViewSet DO BEIGIN (4) PageSet← GetAllPage(pageview); (5) FOR each p ? PageSet DO BEIGIN//每个pageview由一些页面组成 (6) LinkSet← GetAllHyperLink(p); (7) FOR each l?LinkSet DO BEIGIN //l必须为站点内的地址 (8) newpageview← Substitute(pageview, l);//根据超链得到一个新的pageview (9) PageViewSet← PageViewSet ? {newpageview}; (10) PageViewLinkSet←PageViewLinkSet?{pageview,newpageview}; (11) END (12) END (13)END. // PageViewSet 集合增量递增,每次从PageViewSet集合中变量pageview只取新的值 HITS算法 权威页面(Authority)是指那些与给定查询的上下文最为相关并且具有权威性的页面。 中心页面(Hub)是指那些本身的内容未必具有权威性,但却包含了多个指向权威网页的超链接结构: Good hub: page that points to many good authorities. Good authority: page pointed to by many good hubs. Given Keyword Query, assign a hub and an authoritative value to each page. Pages with high authority are results of query HITS算法的求解过程如下: 1、得出根集页面. 2、将所有页面(根集页面)的A和H赋予初值。 3、根据公式计算新一轮的H和A的值。 4、规范化结果 5、重复3、4, 直到结果收敛。 w1 wk ... A w2 u1 uk u2 ... H v HITS算法 Hubs Authorities Calculation Iterative algorithm on Base Set: authority weights a(p), and hub weights h(p). Set authority weights a(p) = 1, and hub weights h(p) = 1 for all p. Repeat following two operations (and then re-normalize a and h to have unit norm): v1 p v2 v3 h(v2) h(v3) v1 p a(v1) v2 v3 a(v2) a(v3) h(v1) HITS算法的问题 计算量比PageRank算法大。 有些时候,一主机A上的很多文档可能指向另外一台主机B上的某个文档,这就增加了A上文档的Hub值和B上文档的Authority,相反的情况也如此。HITS是假定某一文档的权威值是由不同的单个组织或者个人决定的,上述情况影响了A和B上文档的Hub和Authority。 网页中一些无关的链接影响A,H值的计算。 HITS算法最大的弱点是处理不好主题漂移问题(topic drift),也就是紧密链接(TKC, Tightly-Knit Community Effect)现象。如果在基础集合T中有少数与查询主题无关的网页,

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

建筑工程师持证人

没啥好说的额

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

相关文档