- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Viterbi算法网页分类排序动态爬虫策略
基于Viterbi算法网页分类排序动态爬虫策略
摘 要:Viterbi算法是一种基于图的动态规划算法,用于解决最短路径问题。针对当前网站排序算法对网站排名存在忽略网站主题、新站点排名无法超越旧站点等问题,提出了一种改进算法。改进算法利用网站入链数量以及网站?热萦胫魈庀喙囟攘礁霾瘟浚?结合Viterbi算法思想,在逐层访问过程中选取综合条件最优的网站,优胜劣汰,形成Viterbi过程,提高分类网站排序的效率和准确性。实验验证了动态爬虫策略的有效性。
关键词:网页排名;爬虫策略;Viterbi算法
DOI:10.11907/rjdk.172674
中图分类号:TP312
文献标识码:A 文章编号:1672-7800(2018)004-0047-04
Abstract:Viterbi algorithm is a map-based dynamical programming algorithm for solving the problem of seeking the shortest route.In this paper,an improved algorithm has been proposed to solve the problems when topics are ignored in page rank and the fact that newer pages cannot defeat the elder pages in ranking.To improve the efficiency and accuracy of classified sites ranking,the new algorithm employs two parameters (link-quantity and relativity of site) by abandoning lower importance sites in drill-down process.The results of the test show that the dynamical strategy can apparently improve efficiency and accuracy of classified sites ranking.
Key Words:web page rank; crawling strategy; Viterbi algorithm
0 引言
随着互联网的飞速发展,网络信息资源急剧膨胀,信息高效、准确、全面采集成为热门的研究课题[1]。其中一个关键问题是如何高效获取分类主题网页排序信息,网络爬虫技术应运而生。互联网是一个以网页为结点、超链接为边的有向图,因此爬虫过程就可以抽象为对这个有向图的遍历过程[2]。爬虫分为两大类:普通爬虫与主题爬虫。PageRank算法[3]与Fish-Search算法[4]是与之对应的两种广泛应用的网页排序算法。
PageRank算法的核心是计算网页质量,通过计算网页被链接的次数,衡量一个网页的质量在整个互联网中的水平,从而根据质量大小找出互联网中受欢迎的网站。但是该算法忽略了网页的主体性,无法针对用户键入的主题获取相关主题的重要网站,并且还存在耗时长的缺点[5]。Fish-Search算法可以满足用户搜索相关主题信息的要求,但是只分析了子链接的文本相关程度,忽略网络链接结构信息,导致结果不准确[6]。
综合以上问题,本文采用基于Viterbi算法[7]的动态分析思想,利用网页入链数量和网页内容与主题相关度两个参量,在逐层访问的过程中选取综合条件最优的网站,优胜劣汰,形成Viterbi过程,将静态的网页评价转化为动态学习过程,提高收集分类主题网站综合重要性最高网页的效率和准确性、全面性。
1 网页分类排序动态爬虫策略模型
1.1 模型框架设计
动态网络爬虫流程如图1所示。
1.2 网页分类排序动态爬虫策略
在互联网中,任一分类主题条件下,一个网页的综合评价主要由两方面决定:入链数和主题相关度[8]。入链数代表网页在该主题互联网环境内的受欢迎程度,入链数越大表示越受欢迎,越容易被访问。主题相关度代表网页在该主题领域内的专业度,相关度越大表示越专业,在该领域越关注专业内容。本文中网页的综合评价公式如下:
其中,f是网页综合评价值;LV为网页链接价值;CV为网页内容价值;φ1与φ2分别为网页链接价值和网页内容价值的权值,设φ1=0.7,φ2=0.3。
1.2.1 网页链接价值与内容价值
网页链接价值计算公式如下:
其中,LN为网页入链数。首先获得网页的入链数,通过反余切函数对
文档评论(0)