数据挖掘讨论组讨论VLDB文章–AccurateandEfficientCrawlingforRelevantWebsites.pptVIP

数据挖掘讨论组讨论VLDB文章–AccurateandEfficientCrawlingforRelevantWebsites.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘讨论组讨论VLDB文章–AccurateandEfficientCrawlingforRelevantWebsites

Accurate and Efficient Crawling for Relevant Websites Martin Ester Hans-Peter Kriegel Matthias Schubert 报告人: 熊 赟 2005-3-18 内容提要 简介:集中式站点爬虫(搜索)工具(focused website crawler) 相关研究介绍 集中式站点搜索(crawling)任务 集中式站点搜索工具新方法 实验数据评估 结论 集中式站点爬虫工具(focused website crawler) 基于两层体系架构 外部爬虫工具:web看做是一个链接的站点图 内部爬虫工具:单个给定web站点的web页面 优点: 适用于检索web站点而非单一web页面 比较 Web搜索引擎(web search engine) Web目录服务(web directory service) 集中式web爬虫工具(focused web crawler) Web搜索引擎索引单个web页面 Web目录服务提供web上的抽象概念,列出相关主题的站点,但不足的是: a.仅提供小部分与主题相关站点 b.给出的类别缺少用户感兴趣的主题 c.由于手工维护web目录服务并非最新 比较(续) 集中式爬虫工具选择用户感兴趣的web页面,从给定页面集开始,递归调用链接页面搜索更多相关页面,与web搜索引擎相比,具有高精度,能返回未被索引的页面. 提高web目录响应率. 为获得效率和准确度,将web站点概念融入集中式爬虫工具,引入新型的集中式爬虫工具,直接查找相关web站点而非单个web页面 新型集中式爬虫工具搜索任务 具有两层结构,crawling任务分为两个子任务 1.内部搜索:查找单个给定站点的页面,在该站点内执行集中式页面搜索 2.外部搜索:将web抽象为链接站点图结构,其任务选择下一步将被检查的站点,并在选择站点上调用内部搜索策略 特点:可控制从每个站点下载页面的数量,对站点分类不基于主页homepage,而是基于多个页面采用分类算法 相关研究(集中式爬虫工具,文本web分类方法) ①集中式搜索工具Cho J.efficient crawling through URL ordering引入最优best-first搜索策略,基于关键词策略 ②Chakrabarti S.distributed hypertext resource discovery through examples 及focused crawling:a new approach to topic-specific web resource discovery提出权威和hub页面排序web页面重要程度,基于www的链接结构排序重要性,该策略对web搜索引擎结果排序非常成功 ③[5,9,17]关于集中式搜索过程相关介绍 ④[9]引入上下文context图(预测到达相关页面的链接距离用于搜索排序)表示到达相关页面的典型路径. ⑤ …… 相关研究 (续) ①文本分类算法大多采用向量空间模型,该模型用最相关术语出现频率向量代替文本文档,但向量空间的高维性使得不少标准分类算法不好执行,如贝叶斯,支持向量机等等. ②处理web页面分类 [3]引入考虑链接的存在,提高分类准确度 [4]使用类标号及邻居页面文本 ③但大多数方法目标是对单个页面的分类,而不是整个web站点,[11]引入对给定站点分类,但没有提出集中式站点搜索. 集中式站点搜索任务 1.WWW的图结构 符号说明 1.用URL表示页面p 2.content(p)?σ∈∑* 表示当下载页面p时收到的字符串 3.函数f:∑* ?T≌ Nd,将字符串(web页面内容)转换为d维特征向量 4. ∧ (p)表示所有链接(p,q1) (p,q2)… (p,qn)集合,其中(p,qi)表示从p链接到qi,且qi≠ p,(p,q)p为源,q为目标页面,相同页面链接忽略 5.将web页面图定义为有向图G=(V,E),V是web页面集合,E是对于所有p ∈ V的∧ (p)集合. 集中式站点搜索任务 1.WWW的图结构 集中式站点搜索(focused website crawling)的目标是从WWW上检索新的相关站点. Website定义为:由一个相同的人,组织或机构为一个共同目标建立的网页链接集合.例如一个公司. 但没有可靠的方法找到真正建立页面的人及目的,没有准确的方法确定某个页面属于某个站点,但大部分站点是在某个特定的域(子域)下定义的. * 1.WWW的图结构 形式化定义: 对每个页面p,host(p)返回p的域/子域,即p的URL中协议和文件段(file section)间

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档