- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中图分类号-AmazonWebServices
硕士学位论文
分布式JS解析系统的设计与构建
Design and Construction of
Distributed JS Parsing System
作者:黄维
导师:沈波
北京交通大学
2014年3月
学位论文版权使用授权书
本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。
(保密的学位论文在解密后适用本授权说明)
学位论文作者签名: 导师签名:
签字日期: 年 月 日 签字日期: 年 月 日中图分类号:TP393.09
UDC:621.39
学校代码:10004
密级:
北京交通大学
硕士学位论文
分布式JS解析系统的设计与构建
Design and Construction of
Distributed JS Parsing System
作者姓名:黄维 学 号
导师姓名:沈波 职 称:副教授
学位类别:工学 学位级别:硕士
学科专业:通信与信息系统 研究方向:计算机网络
北京交通大学
2014年3月
致谢
论文的撰写工作即将完成,我的研究生学习生活也将结束,在这两年半的时间里,有过迷茫,也有过失落,但是更多的是坚持和收获。这期间我的老师、同学和家人给予了我莫大的支持和帮助,对我这段时间的成长产生了积极作用,在此向你们表示由衷的感谢。
首先,我要感谢我的导师沈波副教授,本文是在沈老师的悉心指导下完成的。沈老师的言谈举止、对生活和科研的态度,使我受益匪浅,对我的学习和生活产生了积极的影响。在论文的前期研究阶段,沈老师对我的工作要求极大提高了论文研究的效率。在论文撰写阶段,沈老师提出了很多宝贵的意见,并帮助我解决了研究过程中的很多问题。在此衷心的感谢沈老师在这两年多的时间里对我的关心和指导。
同时,感谢刘云教授和张振江副教授,为我在研究生学习期间提供良好的学习、科研环境,让我参加到实验室的项目课题中,使我在实践项目中快速的提高了自身的科研水平。刘老师和张老师的严格要求,让我养成了谨慎的工作态度,对我在今后的工作生活产生了积极的影响。在此向刘老师和张老师表示真诚的感谢。
感谢我的家人,家人为我的学习和生活不辞辛劳,我在此向你们表达诚挚的谢意,谨以此文献给我的家人和所有关心我的亲人。中文摘要
摘要:随着互联网技术的飞速发展,网页的页面视图效果越来越美观,使用的页面编程技术也不仅仅局限于HTML、CSS等静态语言。以JavaScript为代表的动态脚本由于其功能强大,使界面观赏程度高等优势越来越受到开发者和用户的青睐。但是由于其编写复杂程度比传统的静态网页技术高,所以在搜索引擎、舆论分析等领域进行网页内容抓取和分析的时候,很难对JavaScript中包含的信息进行解析。所以本论文在设计并构建能够高效解析网页中JavaScript的分布式系统时,能够完成对存在于HTML文档中的JavaScript片段进行高效的提取和分布式解析的功能,并且在分布式计算机集群中合理的进行任务调度。
该论文主要包括两个研究方向:首先是对网页中存在的JavaScript进行有效的提取和解析;然后结合Hadoop分布式计算技术,在深入分析现有任务调度算法、结合本系统实际情况的基础之上,设计本系统在分布式计算环境中的任务调度算法,合理的进行JavaScript解析任务调度,实现对页面中包含的JavaScript片段的高效解析。通过对JavaScript语法规则和其在网页中的存在形式的研究,设计了JavaScript的提取流程和算法,然后借鉴浏览器解析JavaScript的方法,使用JavaScript解析引擎,构造JavaScript解析环境来实现第一模块。通过对现有Map/Reduce任务调度算法的研究、分析和对比,并结合JavaScript解析任务的具体特点和分布式集群的环境,探究最适合本系统的Map/Reduce任务调度算法。对JavaScript解析任务进行合理调度,然后搭建计算机集群,对设计的分布式JavaScript解析系统进行构建。最后对分布式JS解析系统进行测试,对其应用性能和解析准确性进行验证,并且总结系统的不足,提出后续改进意见。
您可能关注的文档
- 中国电信业务发展特点和管制驱动.ppt
- 中国海峡人才市场.ppt
- 中国工程物理研究院核物理与化学研究所2015年人才招聘需求.doc
- 中国海洋大学第四届大学生职场精英挑战赛赛前辅导.ppt.ppt
- 中国科学院上海科技查新咨询中心海南分中心.doc
- 中国科学院微电子研究所2015年硕士专业课考试试题内容覆盖范围及.doc
- 中国科学文献服务系统(CSCI).ppt.ppt
- 中国科学院生物物理所动物实验设备招标文件.doc
- 中国科技论文统计源期刊目录-宁夏医科大学总医院.doc
- 中国的节日.ppt
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)