- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页更新预测算法的研究的现状
网页更新预测算法的研究的现状
摘要:互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。
关键词:Poisson过程;网页更新预测算法;增量采集
中图分类号:TP301.6文献标识码:A文章编号2013)004005703
0引言
据中国互联网络信息中心(CNNIC)统计,中国网页规模呈现翻番增长,截至2010年,中国的网页规模为600亿,年增长率为78.6%。这使得Web这个庞大的信息仓库在提供信息的同时,也会出现一小部分有用的信息将被大量无用信息掩盖的现象。搜索引擎的出现正是为了解决这一困境,帮助人们从海量的数据中找到大家需要的数据,准确、快捷地查找所需信息是搜索引擎的目标。信息资源的规模大、寿命较短、传播范围及来源广泛,且增长速度快,形式多样,给搜索引擎的发展带来了挑战。快速准确地进行网页信息采集成为了一个热门的研究话题,而为了用最小的代价获得更新的网页,预测技术必不可少。
1网页采集技术概述
网页的采集方式有集中和增量两种。其中,集中采集的工作方式是依次对所有的网页进行完全采集,这样的采集方式实现非常方便,获取到的数据全面,但是由于其采集是在一个工作周期内进行,因而信息的滞后性非常明显。增量采集的优点主要有以下几个方面:①采集的效率高;②信息全面。建立在预测的基础上,采集周期灵活多变,变化了的网页能够在极短的时间内获得更新。不过,这种方式具有算法复杂和实现难度大的特点。因而倍受国内外学者的广泛关注。
2网页更新预测模型
3网页更新预测现状
3.1泊松模型缺陷和改进
3.1.1必须获得完整变化轨迹
有学者以获得完整的网页变化轨迹(即网页所有更新变化均被统计的情况)为假设前提来估计网页更新频率,然而这一前提在现实的网络环境中由于受到时间和资源的限制而很难实现。文献\[6\]针对这个问题提出了一种基于部分网页变化轨迹改进的估计方法(称作CGM估计),该方法针对网页是否规律变化分别使用-log[JB((]X[TX-]+0.5[]n+0.5[JB))]和极大似然估计值估算网页更新频率,并介绍如何根据LAST DATE OF CHANGE来评估λ。实验证明,相比于文献\[3\]中的方法,文献\[6\]中的方法在准确性和稳定性上均有提高。其中83%的网页能够获得更接近真实值的频率变化估计值。
3.1.2变化频率仅计算一次
针对文献\[6\]方法中网页的变化频率一经确定将不再重复计算,无法适应多变的网络环境的问题,刘凡等设计并实现了一个Web页面跟踪系统,使用一种基于启发式的方法对网页重复访问频率进行动态更新,利用HTML 解析器和差异分析算法计算网页的更新度,系统在运行过程中根据发起检测的总数和检测的命中次数,调整网页的重新访问频率,一定程度上减小了使用固定频率重新访问网页带来的误差。其页面更新检测的工作原理如图1所示。
图1页面更新检测的工作原理
文献\[9\]提出了一种基于内容和网页隶属关系的分析方法,从权威的网站和公众关注的热点这两个角度出发,在一定程度上解决了主题流行程度与网页变化的关系。其中内容分析是通过分析用户的查询日志来进行:如果一个网页的内容中包含有近期被大多数用户使用的查询词语,那么即认为这个网页是比较重要的;如果这些查询词语是出现在标题、锚文本等明显的地方,则具有较高的相关性,这种网页将获得较高的采集频度。相关性的计算公式为:
相关性(U\-i)=[JB({]∑[DD(X]j=1[DD)]\[权值(tag\-j)×tag\-j上热点查询词数目\][JB)}]×主页面权值(U\-i)
3.2网页更新策略
复杂多变的网络环境,采用固定的更新策略将会造成估算上的误差,浪费搜索时间以及网络资源,针对该种情况,文献\[12\]提出CMIU(Crawling Method of Increment Updating)方法。CMIU方法的主要思路是:通过对页面内每个链接进行数据拟合,从而计算出该页面下每一次的更新时间。假设网页的更新为正态分布,那么,根据时间可以计算出每个网页在每个时刻发生更新的概率,超过阈值的网页静态页面按照HTTP提供的消息头文件有一个预取动作,可以获得协议消息里的时间戳信息,并通过这个信息决定该网页是否需要进行更新,如果不需要,则丢弃,否则放入更新队列中。动态页面则不需要任何检测直接送入更新等待队列。然后系统将会对更新队列中的每一个链接,替换数据库中原有的相关信息。
文档评论(0)