- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浙江大学
硕士学位论文
支持AJAX的互联网搜索引擎爬虫设计与实现
姓名:罗兵
申请学位级别:硕士
专业:计算机应用
导教师:陈刚Abstract
Web Crawler is an important component of Search Engine, web developers build applications that are easier to use and more fimctional than traditional Web programs by using AJAX technologies, which create web pages witii Asynchronous JavaScript and XML. AJAX changes the content of web pages dynamically after getting the data from web server by sending die request asynchronously. As a result, the data that the traditional web crawler collects is less than the data presenting in the web browser. We propose a new web crawler -Aj 狀Crawler, which supports AJAX.
The AjaxCrawler is composed of crawling web page, analyzing web page, interpreting JavaScript, invoking DOM operation methods,regenerating web page. First, ciawl the web page by HTTP request, second, analyze the page element, not only the links,but also the JavaScript code and file in the page, then, execute the JavaScript code, which include the AJAX request, gets the result from server and invoking DOM operation methods to change the content of web page, at last, regenerate the web page and extract the links.
According to the experiment, the content crawled by AjaxCrawler is more than traditional crawler at the same condition.
Keywords Search Engine, Web Crawler, AJAX, Web2.0
图目录
TOC \o 1-3 \h \z 图1-1搜索引擎的体系结构⑴ 4
图2-1传统爬虫的工作流程 8
图2-2抓取策略 9
图2-3基于分类器聚焦爬虫体系结构 10
图24基于数据抽取器的聚焦爬虫体系结构 11
图2-5基于用户学习的聚焦爬虫体系结构 12
图2-6系统结构E] 13
图3-1同步交互(上)和异步交互(下)的比较[B】 18
图3-2传统Web应用和基于AJAX的Web应用的比较113〗 19
图3-3网易博客的毎日推荐页面呈现 22
图34网易博客每曰推荐的页面源码片段 22
图3-5支持AJAX的爬虫总体结构 23
图4-1网页分析流程 34
图4-2 JS解释器的结构 36
图4-3 DOM层次结构 38
图44W3C的DOM接口继承关系 39
图4-5 Node节点的方法 39
图4-6提取页面中超链接的流程 40
图5-1 AjaxCrawler抓取的超链接数一网易博客 42
图5-2传统爬虫抓取的超链接数一网易博客 42
图5-3AjaxCmwler抓取的超链接数一新浪博客 43
图5-4传统爬虫抓取的超链接数一新浪博客 43
图5-5 AjaxCrawler抓取的超链接数一百度博客 44
图5-6传统爬虫抓取的超链接数一百度博客 45
图5-7 AjaxCrawler抓取的超链接数一debian 45
图5-8传统爬虫抓取的超链接数一debian 46
图5-9抓取链接数对比 47
图5-10抓取时间对比 47
表目录
TOC \o 1-3 \h \z 表 3-1 XMLH
您可能关注的文档
最近下载
- 产业经济学知到课后答案智慧树章节测试答案2025年春重庆工商大学.docx VIP
- 中医治疗腰间盘突出症.doc VIP
- 《梦游天姥吟留别》理解性默写.docx VIP
- 上海证券交易所科创板股票上市规则(可编辑).pdf VIP
- 川崎 Kawasaki 2022款 Z 400 中文用户手册 使用说明书2021年4月14日印刷.doc VIP
- 十八项医疗核心制度考试题().pdf VIP
- 苏教版科学五年级上册全册单元期末知识点梳理.pdf VIP
- 防雷防静电讲义.ppt VIP
- 五金模具加工流程.pptx VIP
- 多因子Alpha系列报告之(三十九):分析师一致预期下的反转策略研究.pdf VIP
文档评论(0)