基于链接聚类的Shark-Search算法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于链接聚类的Shark-Search算法

基于链接聚类的 Shark-Search算法 北京大学计算语言学研究所 苏祺 项锟 孙斌 2006-7-22 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 引言 网页爬取是搜索引擎工作的重要步骤 网页的静态搜集 -时新性较差,不能保证链接的有效性 -不具有可定制性 网页的主题爬取 -指定主题,即时定向,对待访问链接进行评价 -较好的时新性,大量节约硬件和网络资源 要点:与主题最相关的链接优先爬取 根据网页的半结构化特征对其中的链接进行聚类 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 Fish-Search算法 Web爬取-鱼群的觅食过程 动态建立一个优先爬取的URL列表 鱼-URL 食物-相关网页 找到食物:鱼繁殖αω后代,保持生命力D继续觅食(沿该方向继续跟踪链接),潜在相关得分1 没有找到食物:繁殖ω后代,生命力-1,潜在相关得分0.5 Shark-Search算法 在Fish-Search算法基础上的改进 网页与主题的相关性 -相关/不相关 0,1 -VSM模糊评分 [0,1] 潜在相关得分 -父结点相关性的继承 -链接文本 -链接上下文 Shark-Search算法 上下文范围 内容 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 链接聚类算法 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 用类别评分策略替换原有的链接上下文评分策略 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 实验结果 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 结论 本文提出基于网页中的半结构化特征对网页中的链接进行聚类,并以此对Shark-Search算法进行改进。通过实验证明了这种方法的有效性。 谢谢! * * htmlheadtitlehello/title/head body divtable trtda href=””1/a/td/tr /table/div divtable tr tda href=””2/a/td tdtable trtda href=””3/td/tr trtda href=””3/td/tr trtda href=””3/td/tr /table/td /tr /table/div /body /html Link 9 1-4-5-6-7-8-9 Link 14 1-4-10-11-12-13-14 Link 19 1-4-10-11-12-15-16-17-18-19 Link 22 1-4-10-11-12-15-16-20-21-22 Link 25 1-4-10-11-12-15-16-23-24-25 步骤3 14 25 22 19 24 21 18 23 20 17 16 9 8 6 7 15 13 12 5 1 2 4 3 10 11 a a a a td td td tr tr tr table a td table tr td td tr div html head body title div table 步骤2 步骤1 基于链接聚类的Shark算法

文档评论(0)

ldj215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档