- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
开题报告如何写
注意点
1.一、对指导教师下达的课题任务的学习与理解
这部分主要是阐述做本课题的重要意义
2.二、阅读文献资料进行调研的综述
这部分就是对课题相关的研究的综述 落脚于本课题解决了那些关键问题
3.三、根据任务书的任务及文件调研结果,初步拟定执行实施的方案(含具体进度计划)
这部分重点写具体实现的技术路线 方案的具体实施方法和步骤了,具体进度计划只是附在后面的东西不是重点
南京邮电大学通达学院毕业设计(论文)开题报告
题 目
基于python的网络爬虫系统的设计与实现
学生姓名
徐亚洲
班级学号专业
软件工程
一、对指导教师下达的课题任务的学习与理解
随着网络的快速发展和广泛应用,大数据时代的到来,网络就像一个巨大的数据宝库,如何快速获取其中的数据资源成为亟待完成的新需求。然而网络上的信息资源大多是无组织并且动态变化的,光靠管理员手工去管理,很难将这些庞大,繁杂的数据进行有效的保存和利用,这就促使了网络爬虫技术的兴起。
网络爬虫源自Spider(或Crawler、robots)等的意译。网络爬虫的定义有广义和狭义之分,狭义的定义为:利用标准的http协议,根据超链接和Web文档检索的方法遍历万维网信息空间的软件程序。广义的定义为:所有能利用http协议检索Web文档的软件都称之为网络爬虫。
网络爬虫又被称为做网络蜘蛛、网络机器人,主要用于网络资源的收集工作。是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
网络爬虫已经发展了很多年,并且搜索引擎也是爬虫的一种应用,通过搜索引擎能够更快速的获得有用的数据和信息。但是,一些通用性的搜索引擎也存在着一定的局限性,通用搜索引擎返回的结果可能包含了大量用户不关心的网页内容,而且通用搜索引擎有限的服务器资源与无限的网络资源之间存在的矛盾进一步加深,还有,就是通用搜索引擎不能支持给据语义的信息提出的查询和搜索。所以学习网络爬虫有很大的意义。因此,本课题基于Python编写基本的爬虫系统,用于网路爬虫的入门,为以后的爬虫学习奠定基础。
所以,对于本课题我设计并实现以个关于入门爬虫的系统----基于python的豆瓣网爬虫系统。
二、阅读文献资料进行调研的综述
网络爬虫是一个功能很强大的自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。它通过请求站点上的html文档访问某一个站点。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时,利用html语言的标记结构来搜索信息,及获取指向其他超级文本的url地址,可以完全不依赖于用户的干预实现网络上的自动“爬行”和搜索。
本课题需要用MySQL来存取从网页上抓去到的数据,文献[1]讲述了MySQL数据库的入门知识,该,学习该文献能够做到MySQL数据库的基本存取操作,满足本课题的实际操作要求。文献[2]
和文献[3]讲述了Python的入门教程和Python的编程入门,通过学习文献可以了解Python的基本语法和Python的基本编程方法,对于本课题程序编写,能够拥有大概的思路和想法。文献[4]中提供了开发了一款支持并行的微博数据抓取工具的基本思路,该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容。并且支持并行抓取信息。并行爬虫拥有较好的加速比,可以快速抓取数据。
文献[5] 基于信息数据分析的微博研究综述[J];研究微博信息数据的分析,在这类研究中,大多数以微博消息传播的三大构件---微博消息、用户、用户关系为研究对象。以微博消息传播和微博成员组织为主要研究内容,目的在于发祥微博中用户、消息传博、热点话题、用户关系网络等的规律。基于微博信息数据分析的研究近年来在国内外都取得了很多成果,掌握了微博中的大量特征。该文献从微博消息传播三大构件的角度,对当前基于信息数据分析的微博研究进行系统梳理,提出微博信息传播三大构件的概念,归纳了此类研究的主要研究内容及方法。?
对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。文献[6]综述了聚焦爬虫技术的研究。其中介绍并分析了聚焦爬虫中的关键技术:抓取目标定义与描述,网页分析算法和网页分析策略,并根据网络拓扑、网页数据内容、用户行为等方面将各种网页分析算法做了分类和比较。聚焦爬虫能够克服通用爬虫的不足之处。
文献[7]首
您可能关注的文档
- 正确认识注意缺陷动障碍.ppt
- 正确使用和佩戴劳防护用品.ppt
- 正确使用和佩戴劳防护用品17118.ppt
- 正确使用祖国汉语文字.ppt
- 正警风严警纪树形活动个人自查整改报告.doc
- 正确使用祖国的语文字课件.ppt
- 步进电机的工作原.ppt
- 武宏志:批判性思及其与非形式逻辑和法律逻辑的关系.ppt
- 正面描写和侧面描.ppt
- 步进电机的结构和作原理.ppt
- 小学语文阅读能力培养与教学策略探究教学研究课题报告.docx
- 高中物理教师数字素养培养的分层培训模式研究教学研究课题报告.docx
- 高中数学建模:无人机集群避障的人工势场法优化策略教学研究课题报告.docx
- 高中生利用透射电子显微镜检测不同产地茶叶的纳米线结构差异课题报告教学研究课题报告.docx
- 高中生运用GIS模型探究宋代磁州窑瓷器通过漕运路线传播效应课题报告教学研究课题报告.docx
- 初中生物遗传病筛查中的数学模型构建与早期干预策略课题报告教学研究课题报告.docx
- 小学语文教学工作改进总结报告.docx
- 《环保产业政策激励对企业绿色创新绩效的影响分析》教学研究课题报告.docx
- 物联网在智慧校园智能学习环境中的应用:感知与反馈机制的优化教学研究课题报告.docx
- 初中物理探究:自制天文望远镜观测行星运动规律分析教学研究课题报告.docx
原创力文档


文档评论(0)