基于JavaScript切片的AJAX框架网络爬虫技术研究.pdf

基于JavaScript切片的AJAX框架网络爬虫技术研究.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于JavaScript切片的AJAX框架网络爬虫技术研究.pdf

2009年第7期 计算机系统应用 avaScri 基于J pt切片的AJAX框架网络 爬虫技术研究① WebCrawler of FrameBasedon AJAX Technology JavaScriptSlicing 曾伟辉1,2李淼l(1.中国科学院合肥智能机械研究所安微合肥230031: 2.中国科学技术大学信息科学技术学院自动化系安微合肥230027) 摘要: 自JesseJames 在客户端安装插件。因此,一经提出就引起了互联网领域的广泛关注。但目前的网络爬虫技术在~AX 框架的URL解析过程中存在着不能够识别事件触发顺序等问题。导致大量数据不能被搜索引擎有效检 索。本文针对此问题,通过研究基于对象的程序切片算法。以及脚本执行引擎与切片模块的互操作, 最终解决~AX框架中URL提取以及异步JavaScript网络爬虫系统的关键技术问题。 关键词:JavaScript程序切片网络爬虫有限状态机AIAX 1 引言 程序切片(Program A,IAX[U是2005年JesseGarrett在一篇序P中某一点状态的所有语句和断言的集合。程序切 James New toWeb 名为Ajax:A 片实际上是得到了程序P的一个有效子集,而省略了 ApproachApplica— tions的文章中定义的一种客户端技术,它建立在其他不相关代码,降低了代码执行的时间和空间复杂 Weiser提出 JavaScript和XML基础上,真正实现了RIA(Rich度。程序切片技术【4,5l从1979年Mark Internet Applications,丰富互联网应用程序),克服以来在国内外已引起了人们的关注,目前已经有了许 了其它RIA技术需要在客户端安装插件才能够实现动 多切片工具。国外的研究有支持C语言的Wisconsin 态交互的弱点。同时,~AX极大地提高了用户的交互 程序切片工具version 体验。因此,NAX一经提出,就被网站开发人员大规 Oberon 模采用,各种AJAX框架如GWT,Atlas,Dojo也应 Slicing LinzOberon Indus;基于Oberon语言的The 运而生。但~AX站点中包含大量Javascript代码, tool、 对于RIA中JavaScript脚本的处理,国内外的研究是 slicing SlicingSystem,以及Microsoft’s 采用标准浏览器API自动构建迷你浏览器替代web浏 览器(如IE)处理脚本执行代码【2】。中国科学院计算技术京大学、东南大学等,他们组成的程序切片研究小组 研究所在Mozilla开源的JavaScript引擎开发的基于分层切片模型的面向Java程序切片工具, SpiderMonkey下,通过构造浏览器内置对象的方法目前已经用于OOPQL语言环境中提供相关程序的切 提取动态网页的URL[31,但这些方法都

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档