课程的设计综合实验汇报格式.docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课程设计报告 ( 2010 -- 2011 年度第 一 学期) 名 称: 《软件设计与实践》课程设计 题 目: 网络爬虫研究与应用 院 系: 计算机系 班 级: 学 号: 学生姓名: 指导教师: 软件设计与实践教学组 设计周数: 两周 成 绩: 日期: 2011 年 1 月 14 日 《软件设计与实践》课程设计 任 务 书 一、 目的与要求 了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架; 开发平台采用JDK 1.60 eclipse集成开发环境。 二、 主要内容 了解网络爬虫的构架,熟悉网页抓取的整个流程。 学习宽度优先和深度优先算法,实现宽度crawler应用程序的编写、调试和运行。 学习主题爬行及内容分析技术。 实现网络爬虫的基本框架。 三、 进度计划 序号 设计(实验)内容 完成时间 备注 1 对网络爬虫程序进行初步认识 2011-1-5 2 学习算法 2011-1-7 3 设计爬虫的框架,划分功能模块 2011-1-10 4 代码实现及调试 2011-1-13 5 验收、撰写报告 2011-1-14 四、 设计成果要求 要求按时按量完成所规定的实验内容; 界面设计要求友好、灵活、易操作、通用性强、具有实用性; 基本掌握所采用的开发平台。 五、 考核方式 平时成绩+验收+实验报告。 学生姓名:于兴隆 指导教师:王蓝婧 2011 年 1 月 2 日 课程设计 为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 2.网络爬虫 2.1 Internet上的网页关系建模 如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个Internet上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到Internet上的几乎所有的网页。 图 1. 网页关系的建模图 2.2搜索引擎的分类和整体结构 2.2.1分类 :搜索引擎虽然所采用的技术和实现的方法各有不同,但是总体来说可以分为两类,一种是基于目录的搜索引擎,另一种是基于全文检索的搜索引擎。 2.2.2整体结构: 目前,在国内外各主要商业搜索引擎在技术上主要使用了全文检索技术,下图为基于使用全文检索技术的搜索引擎的整体结构。基于全文检索技术的搜索引擎主要由三部分组成,如图所示,信息采集器(网络爬虫),索引器、搜索接口。 图2 搜索引擎的整体结构 2.3网络爬虫: 2.3.1定义:网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。 2.3.2基本原理:爬虫从一个或若干初始网页的URL 开始,通过分析该URL 的源文件,提取出新的网页链接,继而通过这些链接继续寻找新的链接,这样一直循环下去,直到抓取并分析完所有的网页为止。当然这是理想状态下爬虫的执行过程,但是实际上要抓取Internet上所有的网页是不可能完成的。从目前公布的数据来看,最好的搜索引擎也只不过抓取了整个Internet40%的网页。这有两个原因,其一是网络爬虫设计时的抓取技术瓶颈造成的,无法遍历所有的网页,很多网页链接不能从其他网页中得到。其二是存储技术和处理技术造成的,如果按照每个页面的平均的大小是20K,那么100 亿个页面的大小就是200000G,对于现在的存储技术来说是个挑战。 2.3.3爬行策略: (1)广度优先: 广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单,可以覆盖尽可能多的网页。本课题采用广度优先策略。 对图1 中的节点进行访问:1--2--3--4--5--6--7--8 (2)深度优先: 深度优先搜索策略是一种在开发Spider 的早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档