-web爬虫专题研究..docVIP

下载本文档

2
0
约1.12万字
约 9页
2016-12-09 发布于重庆
举报
版权申诉

-web爬虫专题研究..doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

-web爬虫专题研究.

目录 (Content) 一、绪论 2 1.1 引言 2 1.2 背景 2 1.3 定义 3 二、聚焦爬虫工作原理及关键技术 3 2.1 聚焦爬虫相关概念 3 2.2聚焦爬虫的研究内容 3 2.3网络爬虫工作原理 4 2.3.1抓取目标 4 2.3.2 抓取目标描述 4 三、网页搜索策略 5 3.1 广度优先搜索策略 5 3.2 最佳优先搜索策略 5 四、网页分析算法 5 4.1 基于网络拓扑的分析算法 5 4.1.1 网页(Webpage)粒度的分析算法 5 4.1.2 网站粒度的分析算法 6 4.1.3 网页块粒度的分析算法 6 4.2 基于网页内容的网页分析算法 6 4.2.1 基于文本的网页分析算法 6 4.2.2 Hidden Web的网页分析方法 6 4.2.3 数据密集型网页的分析方法 7 4.3 用户协作网页分析算法 7 4.4 基于领域概念定制的网页评价算法 7 五、聚焦爬虫系统体系结构 8 5.1 基于分类器的聚焦爬虫 8 5.2 基于数据抽取器的聚焦爬虫 8 5.3 基于用户学习的聚焦爬虫。 8 六、总结 8 结论 9 参考文献 9 一、绪论 1.1 引言随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如： 　　(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。 　　(2) 通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 　　(3) 万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频/视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。 　　(4) 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。以上4个局限性已经将目前通用的搜索引擎的“信息涉及领域太广”，“返回冗余信息多”，“结果不够准确”等一系列的问题都反映出来；结果将是导致在某些特定领域的查询上则不够深入和专业化。为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(generalpurpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。 1.2 背景近年来，随着互联网的快速发展，网络信息呈指数级的增长，这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战，越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统，可以根据用户需要从互联网上自动搜集到主题相关信息，在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页，而在有些应用中，如网络目录，更多的是给用户提供主题相关网站。随着互联网信息的日益增多，目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录，将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制，从用户提供的种子网站开始，以Best-first原则获取最佳候选网站并开始新一轮的爬行分类。 1.3 定义网络爬虫源自Spider (或Crawler、robots、wanderer)等的意译。网络爬虫的定义有广义和狭义之分[1]，狭义的定义为：利用标准的http协议，根据超级链接和Web文档检索的方法遍历万维网信息空间的软件程序。广义的定义为：所有能利用http协议检索Web文档的软件都称之为网络爬虫。网络爬虫是一个功能很强大的自动提取网页的程序，它为搜索引擎从万维网下载网页，是搜索引擎的重要组成部分。它通过请求站点上的HTML文档访问某一站点。它遍历Web空间，不断从一个站点移动到另一个站点，自动建立索引，并加入到网页数据库中。网络爬虫进入某个超级文本时。利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址．可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。二、聚焦爬虫工作原理及关键技术 2.1 聚