主题网络爬虫关键技术研究.pdfVIP

下载本文档

18
0
约2.89万字
约 36页
2021-07-25 发布于广东
举报
版权申诉

主题网络爬虫关键技术研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要随着互联网的迅速发展，Web 的信息量越来越大。人们往往通过搜索引擎去从互联网上搜索想要的信息，比如:百度，谷歌，搜狗等。这类搜索引擎称之为通用搜索引擎，其为所有的用户提供用户想要的所有信息。随着互联网上的信息量越来越大，用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题，就需要更加专业的，面向特定领域的搜索引擎来解决。主题网络爬虫是垂直搜索引擎的关键部分，本文主要是对主题网络爬虫中的关键技术进行研究。主要研究内容如下：（1）主题内容的抽取是网页主题识别的重要步骤，本文结合网页内容分布特征以及主题内容的相关特征，设计了一种网页主题内容抽取方法。（2）提出了一种基于实体链接的主题识别算法，去识别网页的主题。将基于知识库的实体链接方法运用于特征抽取，实验表明该方法提高了主题网页识别的准确率。（3）提出了一种基于Best-First 算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键，本文采用基于 Best-First 算法的主题搜索策略。关键词：主题网络爬虫，实体链接，Best-First 算法，主题搜索策略第一章绪论 1.1 背景与意义随着Internet的飞速发展，互联网信息呈指数增长。根据中国互联网络信息中 [1] 心（CNNIC）发布的第40次《中国互联网络发展状况统计报告》数据显示: “截至 2017年6月，中国网民规模达到7.51亿，占全球网民总数的五分之一。互联网普及率为54.3%；中国网站数量为506万个，半年增长4.8%。” 如此大量的网站中包含着不计其数的网页，网页是信息的载体，人们一般通过百度、谷歌等通用搜索引擎去从互联网上获取想要的信息。然而，利用通用搜索引擎搜索出的信息，往往比较宽泛。垂直搜索引擎针对的是一个特定的行业，是通用搜索引擎的细分，其将某一领域的网页信息进行整合，处理后再以某种形式返回给用户。垂直搜索针引擎对某一领域，为特定用户或特定需求提供相关的信息和服务。垂直搜索引擎专注于某一领域或专业，所以显得更加专注、具体及深入。主题网络爬虫，又称聚焦爬虫是垂直搜索引擎的重要组成部分，所以对主题网络爬虫的研究具有重要的意义。主题网络爬虫是一个自动从互联网上抓取网页的程序，它根据预设的主题去访问互联网上与主题相关的链接，获取网页信息。通用网络爬虫从若干种子链接开始，先抓取种子链接的网页，然后从这些网页中抽取新的链接放入待抓取队列中，直到满足系统设定的抓取结束条件或者待抓取队列为空。相比之下，主题网络爬虫的抓取流程较为复杂，在抓取的过程中，需要预测链接的主题相似度，然后放入根据主题相似度排序的待抓取队列中。 1.2 主题网络爬虫的国内外研究现状 [2] 1999 年，S.Chakrabani 第一次提出了聚焦爬虫这一概念，并设计并实现了 Focus Proiect 系统[3]。该技术一经提出很快获得了广泛关注。接下来，从理论与实现的系统两个方面介绍主题网络爬虫的国内外研究现状。 1.2.1 主题识别算法及主题搜索策略 P.DeBra[4]等人提出利用 Fish-Search 算法来作为爬虫的搜索策略，该算法假设主题相关页面逻辑上相接近来搜索主题相关的网页。Shark-Search 爬虫[5]是在 Fish-Search 算法的的基础上进行了改进，Fish-Search 算法是利用二值模型来评估主题相关性，而 Shark-Search 算法根据链接锚文本和网页主题相关内容计算出的相关性值为[0-1]内的值。该算法能提高主题爬虫的召回率。 Best-First 爬虫[6]，由 CHO J 等人在 1998 年提出，其主要思想是构建一个待抓取队列，按照评价策略对队列中的链接进行评价，挑选最好的链接进行抓取。 Larry Page 和 Sergey Brin[7]提出了 PageRank 算法，运用于 Google 搜索引擎。leinberg 博士首先提出 HITS 算