- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深圳大学期末考试试卷
开/闭卷 综述报告 A/B卷 课程编号 1502320001 课程名称 下一代互联网技术 学分 2.5
命题人(签字) 崔来中 审题人(签字) 年 月 日
题号 一 二 三 四 五 六 七 八 九 十 基本题总分 附加题 得分 评卷人
《下一代互联网技术》课程综述报告要求:
课程综述报告由个人独立完成。
要求学生从教师的授课专题,包括:
下一代互联网过渡技术(翻译技术和隧道技术)
存储安全)影响力传播)节能)语义)流媒体)))))二○一 ~二○一 学年度第 学期
课程编号 1502320001 课程名称 下一代互联网技术 主讲教师 崔来中 评分 学 号 2013150383 姓名 李楚煌 专业年级 大三网络工程01 教师评语: 题目: 网页搜索中技术的研究
前言
在21世纪互联网高速发展的背景下,搜索引擎在人们生活中有着举足轻重的作用,而网络爬虫是搜索引擎中的重要的 本文是对、
网络爬虫设计与分类漏洞平台的爬虫技术的聚焦爬虫的在于,接通爬虫是基于最原始的协议,算法技术,分布式系统,探索挖掘。网络爬虫的优势潜能如此巨大,接我会详细讨论近期我对这个技术的若干研究。
基于此次希望探讨的研究方向:网络爬虫,在中文文献方面,主要有:多线程进行网络爬虫的优化,网络爬虫的Web信息采集技术虫漏洞管理英文文献方面有:A Cloud-based Web Crawler Architecture》 ,《A Spatial Web Crawler for Discovering》Design of improved focused web crawler》这篇文献的层次在于如何对信息进行有效地采集采集的量如何够快够大漏洞管理切口,爬虫技术有哪方面的发展潜力。
爬虫又可以理解为爬虫,阅读的部分有网络爬虫结构设计,其中又细分为爬行节点的结构设计,控制节点的结构设计网络爬虫的关键技术在于,集合的分布函数的选择分布式策略来带领多线程下载对信息的,在于采集,需要对检索引擎有所:全文检索、目录索引型检索、元检索。再到网络爬虫的,有深度优先搜索策略、宽度优先搜索策略、搜索策略。信息的实质内容,爬虫其特色性质:布告栏的数据分类并联式关联、的可预览及寻址自动动态更新实现。漏洞平台的爬虫聚焦技术阅读,是在漏洞这个领域,爬虫子模块的划分:爬虫接口、配置文件解析模块、网页模块、网页解析模块、去重模块、漏洞信息保存模块。平台管理这个框架,对爬虫效率如何改进、内容如何改进有所阅读了解。
,A Cloud-based Web Crawler Architecture》主要论述的网络为代表的应用如何在网络上更好得进行的的查找。有巨量的索引的链接非结构化的数据需要网络爬虫去应对这些挑战:链接和高密度计算的复杂。在背景下,文献提供了云计算模式,支持弹性的资源化和的数据,并提供读写加注功能。云计算的功能和apReduce编程技术可以使我们能够抓取网页和云计算中所发现的zure表。《A Spatial Web Crawler for Discovering》文献其实与单纯地谈论爬虫技术不一样,一般讨论爬虫技术,是如何物理、软件层面提高计算机速度进行搜索,又或者对算法的优化而文献谈论的可以归属另一个学科,地缘服务器提供的地理特征,进行空间的划分,使用空间的数据源来说,这是一个对地理领域信息系统的研究。地理数据在本质上常常动态异构形式提供空间数据是一个基于地理的形式进行发布的。网络爬虫专注于地理空间在地缘服务器上的功能。Design of improved focused web crawler》篇文献讲述的东西比较细,是对锚语义性质的研究分析。提出了一种技术,偏重于语义重点网络的分析探讨。
研究方向主要有以下个 多线程)进行网络爬虫的优化,网络爬虫的Web信息采集技术虫漏洞管理云计算模式支持弹性的资源化和的数据爬虫技术,网络爬虫样专注于地理空间在地缘服务器上的科技,锚语义性质的研究分析
分布式网络爬虫的理论基础它由多台,分为模块:
分布式网络爬虫的方法具体到模块来分析探讨。模块是接受来自分布式模块的,判断该被访问过。访问过进列访问过,忽略。那分布式网络爬虫中与单台不同的是:单台只需要对进行记录域名,计算复杂低;分布式爬虫中需要域名转换量大,复杂度高。具体解释:维护在每个节点维护一个本将要访问的模块,可以参照ercator系统,每一道一个domain,这样可以避免多个线程同时访问一个domain。已经谈到计算量大的问题,由于队列的数据结构在爬行进行到一定阶段时
文档评论(0)