聚焦爬行中网页爬行算法的改进.docVIP

下载本文档

0
0
约3.17千字
约 5页
2018-04-07 发布于北京
举报
版权申诉

聚焦爬行中网页爬行算法的改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚焦爬行中网页爬行算法的改进　　摘要：因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求，传统的通用搜索引擎往往不能提供令人满意的结果网页，为了克服通用搜索引擎的以上不足，提出了面向主题的聚焦爬虫的研究思路和方法。该文针对聚焦爬虫这一研究热点，对现今聚焦爬虫的爬行方法(主要是网页分析算法和网页搜索策略)做了深入分析和对比，提出了一种改进的聚焦爬行算法。这种基于类间规则的聚焦爬行方法借助baseline聚焦爬虫的架构，应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的“未来回报”页面，并通过实验对该算法的性能进行分析、评价，证明其对聚焦爬虫的爬行收获率和覆盖率有很好的改善。　　关键词：baseline聚焦爬虫；朴素的贝叶斯分类器；未来回报率；基于规则的聚焦爬虫；通道　　中图分类号：TP311文献标识码：A 文章编号：1009-3044(2008)35-2145-02 　　The Extension of Focused Crawling Strategy 　　TAN Jun-shan, CHEN Ke-qin 　　(Computer Science, Central South University of Forestry and Technology, Changsha 410004, China) 　　Abstract: A focused crawler gathers relevant Web pages on a particular topic. In our work, we started with a focused-crawling approach designed by Soumen Chakrabarti, Martin van den Berg and Byron Dom, called baseline crawler. Building on this crawler, we developed a rule-based crawler, which uses simple rules derived from interclass (topic) linkage patterns to decide its next move. This rule-based crawler also enhances the baseline crawler by supporting tunneling. Initial performance results show that this rule-based Web-crawling approach uses linkage statistics among topics to improve a baseline focused crawlers harvest rate and coverage. 　　Key words: baseline crawler; naiuml;ve-bayesian classifier; future benefit rate; rule-based crawler; tunneling 　　　　1 引言　　　　主题搜索引擎搜寻最优行动选择序列的主要困难在于，在整个搜索任务完成之前，网络蜘蛛对Web搜索空间中信息资源的整体分布总是未知的。虽然目前的启发式搜索策略可以借助某些领域知识对信息资源的分布情况做出某种程度的估计，并据此推断出大致的搜索方向，但这种估计存在明显的“近视性”。产生近视问题的主要原因是领域知识仅来源于网络蜘蛛对已搜索空间中的页面文本信息或Web结构信息的统计和分析, 其本身不但可能是粗糙的、非精确的，而且具有局部性的特点。因而，按最好优先策略选出的链接只可能是“局部最优”链接，由此决定的行动也只可能是一种“局部最优”行动；然而，可能存在有些链接表现出的价值不高，却预示着更多的“未来”回报，并具有较高的“全局价值”。综合上述，聚焦爬虫从全局着眼为覆盖尽可能多的网页，其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。我们把获得的与主题相关的页面称为“回报”，将可以通过直接计算相关度得到的页面称为“立即回报”，将网络蜘蛛不能直接获得必须通过间接计算才能得到的页面称为“未来回报”[1]。提高“未来回报”率是该文研究的出发点。　　　　2 对现有主题网络爬虫的分析评价　　　　按照所采用的领域知识和评价链接价值方法的不同，现有的搜索策略主要分为两大类：基于内容相似度评价的搜索策略和基于web结构评价的搜索策略。前者的主要特点是利用页面中的文本信息作为领域知