课程的设计综合实验汇报格式.docVIP

下载本文档

2
0
约6.35千字
约 14页
2017-04-14 发布于北京
举报
版权申诉

课程的设计综合实验汇报格式.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

课程设计报告 ( 2010 -- 2011 年度第一学期) 名称：《软件设计与实践》课程设计题目：网络爬虫研究与应用院系：计算机系班级：学号：学生姓名：指导教师：软件设计与实践教学组设计周数：两周成绩：日期： 2011 年 1 月 14 日《软件设计与实践》课程设计任务书一、目的与要求了解网络爬虫的架构和工作原理，实现网络爬虫的基本框架；开发平台采用JDK 1.60 eclipse集成开发环境。二、主要内容了解网络爬虫的构架，熟悉网页抓取的整个流程。学习宽度优先和深度优先算法，实现宽度crawler应用程序的编写、调试和运行。学习主题爬行及内容分析技术。实现网络爬虫的基本框架。三、进度计划序号设计(实验)内容完成时间备注 1 对网络爬虫程序进行初步认识 2011-1-5 2 学习算法 2011-1-7 3 设计爬虫的框架，划分功能模块 2011-1-10 4 代码实现及调试 2011-1-13 5 验收、撰写报告 2011-1-14 四、设计成果要求要求按时按量完成所规定的实验内容；界面设计要求友好、灵活、易操作、通用性强、具有实用性；基本掌握所采用的开发平台。五、考核方式平时成绩＋验收＋实验报告。学生姓名：于兴隆指导教师：王蓝婧 2011 年 1 月 2 日课程设计为了解决上述问题，定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫不同，主题爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。 2.网络爬虫 2.1 Internet上的网页关系建模如下图所示，如果将网页看成是图中的某一个节点，而将网页中指向其他网页的链接看成是这个节点指向其他节点的边，那么我们很容易将整个Internet上的网页建模成一个有向图。理论上，通过遍历算法遍历该图，可以访问到Internet上的几乎所有的网页。图 1. 网页关系的建模图 2.2搜索引擎的分类和整体结构 2.2.1分类 :搜索引擎虽然所采用的技术和实现的方法各有不同，但是总体来说可以分为两类，一种是基于目录的搜索引擎，另一种是基于全文检索的搜索引擎。 2.2.2整体结构: 目前，在国内外各主要商业搜索引擎在技术上主要使用了全文检索技术，下图为基于使用全文检索技术的搜索引擎的整体结构。基于全文检索技术的搜索引擎主要由三部分组成，如图所示，信息采集器（网络爬虫），索引器、搜索接口。图2 搜索引擎的整体结构 2.3网络爬虫： 2.3.1定义：网络爬虫是一个自动提取网页的程序，它为搜索引擎从Web上下载网页，是搜索引擎的重要组成部分。 2.3.2基本原理：爬虫从一个或若干初始网页的URL 开始，通过分析该URL 的源文件，提取出新的网页链接，继而通过这些链接继续寻找新的链接，这样一直循环下去，直到抓取并分析完所有的网页为止。当然这是理想状态下爬虫的执行过程，但是实际上要抓取Internet上所有的网页是不可能完成的。从目前公布的数据来看，最好的搜索引擎也只不过抓取了整个Internet40%的网页。这有两个原因，其一是网络爬虫设计时的抓取技术瓶颈造成的，无法遍历所有的网页，很多网页链接不能从其他网页中得到。其二是存储技术和处理技术造成的，如果按照每个页面的平均的大小是20K，那么100 亿个页面的大小就是200000G，对于现在的存储技术来说是个挑战。 2.3.3爬行策略：（1）广度优先：广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单，可以覆盖尽可能多的网页。本课题采用广度优先策略。对图1 中的节点进行访问：1--2--3--4--5--6--7--8 （2）深度优先：深度优先搜索策略是一种在开发Spider 的早期使用得较多的方法，是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路