- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
课程设计实验报告模板精选
课程设计实验报告模板
名 称:题 目:院 系:班 级:学 号:学生姓名:指导教师:设计周数:
成 绩:日期: 《软件设计与实践》课程设计 计算机系 软件设计与实践教学组
2011 年 1 月 14
日
《软件设计与实践》课程设计
任 务 书
一、 目的与要求
1. 了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架; 2. 开发平台采用JDK eclipse集成开发环境。
二、 主要内容
1. 了解网络爬虫的构架,熟悉网页抓取的整个流程。
2. 学习宽度优先和深度优先算法,实现宽度crawler应用程序的编写、调试和运行。 3. 学习主题爬行及内容分析技术。 4. 实现网络爬虫的基本框架。
三、 进度计划
四、 设计成果要求
1. 要求按时按量完成所规定的实验内容;
2. 界面设计要求友好、灵活、易操作、通用性强、具有实用性;
3. 基本掌握所采用的开发平台。 五、 考核方式
平时成绩+验收+实验报告。
学生姓名:于兴隆 指导教师:王蓝婧 2011 年 1 月 2 日
一、课程设计的目的与要求 1.目的:
掌握crawler的工作原理及实现方法; 了解爬虫架构;
熟悉网页抓取的整个流程及操作步骤;
掌握宽度优先,深度优先算法,并实现宽度crawler应用程序的编写、调试和运行; 掌握主题爬行及内容分析技术; 实现一个最基础的主题爬虫的过程; 理解pageRank算法,并编程验证; 二、设计正文
网络爬虫研究与应用
[摘要]:本文通过对网络爬虫研究的逐步展开,讨论了爬虫的相关概念与技术,并通过实验设计了简单的基于宽度优先的爬虫和主题式爬虫。最后,讨论了PageRank算法。 [关键词]:网络爬虫 爬虫应用 PageRank算法 1.引言
随着网络技术的迅速发展,万维网已经成为人们获取信息的重要渠道,如何高效地提取并利用这些信息成为一个巨大的挑战。现阶段的搜索引擎,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
统一的返回不能满足不同用户的检索需求。?
搜索引擎提高覆盖面的目标与膨胀的网络信息之间的矛盾日益加深。 搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。? 2.网络爬虫
Internet上的网页关系建模
如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个Internet上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到Internet上的几乎所有的网页。
图 1. 网页关系的建模图
搜索引擎的分类和整体结构
分类 :搜索引擎虽然所采用的技术和实现的方法各有不同,但是总体来说可以分为两类,一种是基于目录的搜索引擎,另一种是基于全文检索的搜索引擎。 整体结构: 目前,在国内外各主要商业搜索引擎在技术上主要使用了全文检索技术,下图为基于使用全文检索技术的搜索引擎的整体结构。基于全文检索技术的搜索引擎主要由三部分组成,如图所示,信息采集器,索引器、搜索接口。
图2 搜索引擎的整体结构
网络爬虫:
定义:网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。
基本原理:爬虫从一个或若干初始网页的URL 开始,通过分析该URL 的源文件,提取出新的网页链接,继而通过这些链接继续寻找新的链接,这样一直循环下去,直到抓取并分析完所有的网页为止。当然这是理想状态下爬虫的执行过程,但是实际上要抓取Internet上所有的网页是不可能完成的。从目前公布的数据来看,最好的搜索引擎也只不过抓取了整个Internet40%的网页。这有两个原因,其一是网络爬虫设计时的抓取技术瓶颈造成的,无法遍历所有的网页,很多网页链接不能从其他网页中得到。其二是存储技术和处理技术造成的,如果按照每个页面的平均的大小是20K,那么100 亿个页面的大小就是200000G,对于现在的存储技术来说是个挑战。 爬行策略: 广度优先:
广度优先搜索
您可能关注的文档
最近下载
- 胎圈钢丝市场洞察报告.pptx VIP
- Starter Unit 2 Keep Tidy Section A 1a-2e 课件 人教版2024七年级英语上册.pptx
- (9号)青岛天信电气500KW变频器培训资料(四象限).ppt
- 传统风貌区打测绘说明书.pdf
- 2025年传染病防治法培训试题及答案.docx VIP
- 金蝶云星空操作手册V3.5.docx VIP
- 《质量管理》试题题库汇总及参考答案 .pdf VIP
- 2024年八个方面检视剖析材料.docx VIP
- 2023燃气-蒸汽联合循环发电工程建设预算项目划分导则.docx VIP
- 基于文旅融合视角的研学旅游产品创新发展研究——以大连市为例.docx VIP
文档评论(0)