开源网络爬虫在垂直搜索引擎应用.docVIP

下载本文档

2
0
约6.93万字
约 11页
2017-01-13 发布于贵州
举报
版权申诉

　开源网络爬虫在垂直搜索引擎应用.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　开源网络爬虫在垂直搜索引擎应用

开源网络爬虫在垂直搜索引擎应用开源网络爬虫在垂直搜索引擎应用引言　　在信息化时代，针对通用搜索引擎信息量大、查询准度和深度兼差等缺点，垂直搜索引擎已进入了用户认可和使用周期。垂直搜索是针对某一个行业的专业搜索引擎，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户[1]。相比通用搜索引擎则显得更加专注、具体和深入。目前，垂直搜索引擎多用于行业信息获取和特色语料库建设等方面，且已卓见现实深远成效。　　网络爬虫是一个自动提取和自动下载网页的程序，可为搜索引擎从互联网上下载网页，并根据既定的抓取目标，有选择地访问互联网上的网页与相关的链接，获取所需要的信息。按照功能用途，网络爬虫分为通用爬虫和聚焦爬虫，这是搜索引擎一个核心组成部分。　　1聚焦爬虫的工作原理及关键技术分析　　聚焦爬虫的工作原理　　聚焦爬虫是专门为查询某一主题而设计的网页采集工具，并不追求大范围覆盖，而是将目标预定为抓取与某一特定主题内容相关的网页本文由论文联盟http://收集整理，如此即为面向主题的用户查询准备数据资源。垂直搜索引擎可利用其实现对网页主题信息的挖掘以及发现，聚焦爬虫的工作原理是：　　爬虫从一个或若干起始网页 URL 链接开始工作；　　通过特定的主题相关性算法判断并过滤掉与主题无关的链接；　　将有用链接加入待抓取的URL队列；　　根据一定的搜索策略从待抓取 URL 队列中选择下一步要抓取的网页 URL；　　重复以上步骤，直至满足退出条件时停止[2]。　　聚焦爬虫的几个关键技术　　根据聚焦爬虫的工作原理，在设计聚焦爬虫时，需要考虑问题可做如下论述。　　待抓取网站目标的定义与描述的问题　　开发聚焦爬虫时，应考虑对于抓取目标的定义与描述，究竟是带有目标网页特征的网页级信息，还是针对目标网页上的结构化数据。前者因其具有结构化的数据信息特征，在爬虫抓取信息后，还需从结构化的网页中抽取相关信息；而对于后者，爬虫则直接解析Web 页面，提取并加工相关的结构化数据信息，该类爬虫便于定制自适应于特定网页模板的结果网站。　　爬虫的URL搜索策略问题　　开发聚焦爬虫时，常见的URL搜索策略主要包括深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略等[3]。在此给出对应策略的规则分析如下。　　深度优先搜索策略　　该搜索策略采用了后进先出的队列方式，从起始 URL 出发，不停搜索网页的下一级页面直至最后无 URL 链接的网页页面结束；爬虫再回到起始 URL地址，继续探寻 URL的其它URL 链接，直到不再有 URL 可搜索为止，当所有页面都结束时，URL列表即按照倒叙的方式将搜索的URL队列送入爬虫待抓取队列。　　广度优先搜索策略　　该搜索策略采用了先进先出的队列方式，从起始 URL 出发，在搜索了初始web的所有URL 链接后，再继续搜索下一层 URL 链接，直至所有URL搜索完毕。URL列表将按照其进入队列的顺序送入爬虫待抓取队列。　　最佳优先搜索策略　　该搜索策略采用了一种局部优先搜索算法，从起始 URL 出发，按照一定的分析算法，对页面候选的URL进行预测，预测目标网页的相似度或主题相关性，当相关性达到一定的阈值后，URL列表则按照相关数值高低顺序送入爬虫待抓取队列。　　爬虫对网页页面的分析和主题相关性判断算法　　聚焦爬虫在对网页Web的URL进行扩展时，还需要对网页内容进行分析和信息的提取，用以确定该获取URL页面是否与采集的主题相关。目前常用的网页的分析算法包括：基于网络拓扑、基于网页内容和基于领域概念的分析算法[4]。下面给出这三类算法的原理实现。基于网络拓扑关系的分析算法　　基于网络拓扑关系的分析算法就是可以通过已知的网页页面或数据，对与其有直接或间接链接关系的对象作出评价的实现过程。该算法又分为网页粒度、网站粒度和网页块粒度三种。著名的PageRank和HITS算法就是基于网络拓扑关系的典型代表。　　基于网页内容的分析算法　　基于网页内容的分析算法指的是利用网页内容特征进行的网页评价。该方法已从最初的文本检索方法，向网页数据抽取、数据挖掘和自然语言等多领域方向发展。　　基于领域概念的分析算法　　基于领域概念的分析算法则是将领域本体分解为由不同的概念、实体及其之间的关系，包括与之对应的词汇项组成。网页中的关键词在通过与领域本体对应的词典分别转换之后，将进行计数和加权，由此得出与所选领域的相关度。　　2几种开源网络爬虫性能比较　　目前，互联网上推出有许多的开源网络爬虫，易于开发和扩展的主要包括Nutch、Larbin、Heritrix等，下面即针对这三类爬虫进行实用性内容介绍[5]：　　Heritrix 是Java 开