下一代互联网技术-2015试卷李楚煌..doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
下一代互联网技术-2015试卷李楚煌.

深圳大学期末考试试卷 开/闭卷 综述报告 A/B卷 课程编号 1502320001 课程名称 下一代互联网技术 学分 2.5 命题人(签字) 崔来中 审题人(签字) 年 月 日 题号 一 二 三 四 五 六 七 八 九 十 基本题总分 附加题 得分 评卷人 《下一代互联网技术》课程综述报告要求: 课程综述报告由个人独立完成。 要求学生从教师的授课专题,包括: 下一代互联网过渡技术(翻译技术和隧道技术) 云计算(资源调度、存储、安全) 社交网络(推荐、影响力分析、传播模型) 物联网(无线传感器网络、节能技术) 搜索技术(爬虫技术、图片搜索、语义搜索) P2P(文件下载、流媒体分发) 大数据处理与分析技术(网络与机器学习) 多媒体网络(多媒体网络与SDN、流媒体与机器学习) 软件定义网络(SDN与安全、SDN与流量优化、SDN与网络管理) 选择一个专题中的具体技术问题(上述括号内为推荐的问题内容)作为综述报告主题,综述报告名称自拟,参照附件一“综述报告格式模板”与附件二“综述报告写作指导完成综述报告”;评分标准见附件三。 提交的课程综述报告要符合深圳大学相关的格式规范。 第17周提交课程综述报告电子版到blackboard系统,纸质版交到任课老师处。 附件一 综述报告格式模板 深圳大学考试答题纸 (以论文、报告等形式考核专用) 二○一 ~二○一 学年度第 学期 课程编号 1502320001 课程名称 下一代互联网技术 主讲教师 崔来中 评分 学 号 2013150383 姓名 李楚煌 专业年级 大三网络工程01 教师评语: 题目: 网页搜索中爬虫技术的若干研究 前言 在21世纪互联网高速发展的背景下,搜索引擎在人们生活中有着举足轻重的作用,而网络爬虫是搜索引擎中的重要的信息采集器,是搜索引擎技术的核心部分。 本文是对爬虫技术在现今网络环境中出现不同的问题、漏洞提出一些针对性的探究方法,并对各种方法进行实验分析,主要研究分析工作如下: 网络爬虫中的核心技术部分,即网络爬虫系统的多线程设计与实现,详细介绍网络爬虫的概念及信息分类涉及到的算法,技术要点,并探讨实现对漏洞平台当中的爬虫技术的聚焦。 网络爬虫的核心在于,以端口接通为设计基础,依据HTTP协议,使用SOCKET套接字相关函数向服务器端发送HTTP请求,得到目标URL对应的网页内容,再从该网页提取出未爬取过的URL,将该URL重新作为源URL进行新的一轮向下爬取搜索工作,按照各种优先算法向下爬行,从而完成网络爬虫系统的爬行工作。 在互联网中有着很多协议,它们彼此联系着,支持着许多网络程序的运行。网络爬虫系统是基于SOCKET协议的,而SOCKET协议的基础建立在TCP/IP协议之上。由此,网络爬虫是基于最原始的协议,依靠算法技术,组织分布式系统,非常有潜力进行强有力的数据探索与挖掘。既然网络爬虫的优势潜能如此巨大,接下来我会详细讨论近期我对这个技术的若干研究。 阅读文献概述 基于此次希望探讨的研究方向:网络爬虫,在中文文献方面,主要有以下阅读:多线程进行网络爬虫的过程优化,基于网络爬虫的Web信息采集技术,爬虫对漏洞管理平台核心帮助。在英文文献方面主要有:《A Cloud-based Web Crawler Architecture》 ,《A Spatial Web Crawler for Discovering》,《Design of improved focused web crawler》。这几篇文献探究的层次在于如何对信息进行有效地采集、采集的量如何够快够大、以漏洞管理平台为切口,看爬虫技术有哪方面的发展潜力。 多线程爬虫又可以理解为分布式爬虫,主要阅读的部分有分布式网络爬虫结构设计,其中又细分为爬行节点的结构设计,控制节点的结构设计。分布式网络爬虫的关键技术在于,种子集合的优化选取,分布函数的选择。有这些分布式策略来带领多线程下载。而对网络信息的阅读,在于有效采集,需要对信息检索引擎有所划分:全文检索、目录索引型检索、元检索。再深入到网络爬虫的搜索策略,有深度优先搜索策略、宽度优先搜索策略、聚焦搜索策略。针对信息的实质内容,爬虫有其特色性质:布告栏的数据分类及并联式关联、视频的可预览及真实寻址、论坛的自动动态更新实现。对漏洞平台的爬虫聚焦技术的阅读,首先了解的是在漏洞平台这个领域,爬虫子模块的划分:爬虫接口模块、配置文件解析模块、网页爬取模块、网页解析模块、URL过滤去重模块、漏洞信息保存模块。在漏洞平台管理这个框架下,对爬虫效率如何改进、URL相关内容如何改

文档评论(0)

kakaxi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档