基于链接聚类的sharksearch算法hnst8ozq.pptVIP

  • 7
  • 0
  • 约1.98千字
  • 约 16页
  • 2018-09-01 发布于湖北
  • 举报
基于链接聚类的sharksearch算法hnst8ozq

基于链接聚类的 Shark-Search算法 北京大学计算语言学研究所 苏祺 项锟 孙斌 2006-7-22 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 引言 网页爬取是搜索引擎工作的重要步骤 网页的静态搜集 -时新性较差,不能保证链接的有效性 -不具有可定制性 网页的主题爬取 -指定主题,即时定向,对待访问链接进行评价 -较好的时新性,大量节约硬件和网络资源 要点:与主题最相关的链接优先爬取 根据网页的半结构化特征对其中的链接进行聚类 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * Fish-Search算法 Web爬取-鱼群的觅食过程 动态建立一个优先爬取的URL列表 鱼-URL 食物-相关网页 找到食物:鱼繁殖αω后代,保持生命力D继续觅食(沿该方向继续跟踪链接),潜在相关得分1 没有找到食物:繁殖ω后代,生命力-1,潜在相关得分0.5 * Shark-Search算法 在Fish-Search算法基础上的改进 网页与主题的相关性 -相关/不相关 0,1 -VSM模糊评分 [0,1] 潜在相关得分 -父结点相关性的继承 -链接文本 -链接上下文 * Shark-Search算法 上下文范围 内容 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * htmlheadtitlehello/title/head body divtable trtda href=””1/a/td/tr /table/div divtable tr tda href=””2/a/td tdtable trtda href=””3/td/tr trtda href=””3/td/tr trtda href=””3/td/tr /table/td /tr /table/div /body /html Link 9 1-4-5-6-7-8-9 Link 14 1-4-10-11-12-13-14 Link 19 1-4-10-11-12-15-16-17-18-19 Link 22 1-4-10-11-12-15-16-20-21-22 Link 25 1-4-10-11-12-15-16-23-24-25 步骤3 14 25 22 19 24 21 18 23 20 17 16 9 8 6 7 15 13 12 5 1 2 4 3 10 11 a a a a td td td tr tr tr table a td table tr td td tr div html head body title div table 步骤2 步骤1 链接聚类算法 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 用类别评分策略替换原有的链接上下文评分策略 基于链接聚类的Shark算法 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 实验结果 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 结论 本文提出基于网页中的半结构化特征对网页中的链接进行聚类,并以此对Shark-Search算法进行改进。通过实验证明了这种方法的有效性。 谢谢! * * * * *

文档评论(0)

1亿VIP精品文档

相关文档