数据挖掘讨论组讨论VLDB文章–AccurateandEfficientCrawlingforRelevantWebsites.pptVIP

下载本文档

6
0
约3.82千字
约 27页
2017-05-19 发布于四川
举报
版权申诉

数据挖掘讨论组讨论VLDB文章–AccurateandEfficientCrawlingforRelevantWebsites.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘讨论组讨论VLDB文章–AccurateandEfficientCrawlingforRelevantWebsites

Accurate and Efficient Crawling for Relevant WebsitesMartin Ester Hans-Peter Kriegel Matthias Schubert 报告人: 熊赟 2005-3-18 内容提要简介:集中式站点爬虫(搜索)工具(focused website crawler) 相关研究介绍集中式站点搜索(crawling)任务集中式站点搜索工具新方法实验数据评估结论集中式站点爬虫工具(focused website crawler) 基于两层体系架构外部爬虫工具:web看做是一个链接的站点图内部爬虫工具:单个给定web站点的web页面优点: 适用于检索web站点而非单一web页面比较 Web搜索引擎(web search engine) Web目录服务(web directory service) 集中式web爬虫工具(focused web crawler) Web搜索引擎索引单个web页面 Web目录服务提供web上的抽象概念,列出相关主题的站点,但不足的是: a.仅提供小部分与主题相关站点 b.给出的类别缺少用户感兴趣的主题 c.由于手工维护web目录服务并非最新比较(续) 集中式爬虫工具选择用户感兴趣的web页面,从给定页面集开始,递归调用链接页面搜索更多相关页面,与web搜索引擎相比,具有高精度,能返回未被索引的页面. 提高web目录响应率. 为获得效率和准确度,将web站点概念融入集中式爬虫工具,引入新型的集中式爬虫工具,直接查找相关web站点而非单个web页面新型集中式爬虫工具搜索任务具有两层结构,crawling任务分为两个子任务 1.内部搜索:查找单个给定站点的页面,在该站点内执行集中式页面搜索 2.外部搜索:将web抽象为链接站点图结构,其任务选择下一步将被检查的站点,并在选择站点上调用内部搜索策略特点:可控制从每个站点下载页面的数量,对站点分类不基于主页homepage,而是基于多个页面采用分类算法相关研究(集中式爬虫工具,文本web分类方法) ①集中式搜索工具Cho J.efficient crawling through URL ordering引入最优best-first搜索策略,基于关键词策略 ②Chakrabarti S.distributed hypertext resource discovery through examples 及focused crawling:a new approach to topic-specific web resource discovery提出权威和hub页面排序web页面重要程度,基于www的链接结构排序重要性,该策略对web搜索引擎结果排序非常成功 ③[5,9,17]关于集中式搜索过程相关介绍 ④[9]引入上下文context图(预测到达相关页面的链接距离用于搜索排序)表示到达相关页面的典型路径. ⑤ …… 相关研究 (续) ①文本分类算法大多采用向量空间模型,该模型用最相关术语出现频率向量代替文本文档,但向量空间的高维性使得不少标准分类算法不好执行,如贝叶斯,支持向量机等等. ②处理web页面分类 [3]引入考虑链接的存在,提高分类准确度 [4]使用类标号及邻居页面文本 ③但大多数方法目标是对单个页面的分类,而不是整个web站点,[11]引入对给定站点分类,但没有提出集中式站点搜索. 集中式站点搜索任务 1.WWW的图结构符号说明 1.用URL表示页面p 2.content(p)?σ∈∑* 表示当下载页面p时收到的字符串 3.函数f:∑* ?T≌ Nd,将字符串(web页面内容)转换为d维特征向量 4. ∧ (p)表示所有链接(p,q1) (p,q2)… (p,qn)集合,其中(p,qi)表示从p链接到qi,且qi≠ p,(p,q)p为源,q为目标页面,相同页面链接忽略 5.将web页面图定义为有向图G=(V,E),V是web页面集合,E是对于所有p ∈ V的∧ (p)集合. 集中式站点搜索任务 1.WWW的图结构集中式站点搜索(focused website crawling)的目标是从WWW上检索新的相关站点. Website定义为:由一个相同的人,组织或机构为一个共同目标建立的网页链接集合.例如一个公司. 但没有可靠的方法找到真正建立页面的人及目的,没有准确的方法确定某个页面属于某个站点,但大部分站点是在某个特定的域(子域)下定义的. * 1.WWW的图结构形式化定义: 对每个页面p,host(p)返回p的域/子域,即p的URL中协议和文件段(file section)间