下一代互联网技术-2015试卷李楚煌..doc

下载文档 降价啦

12
0
约 15页
2017-01-10 发布于重庆
举报
版权申诉
保障服务

下一代互联网技术-2015试卷李楚煌..doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

下一代互联网技术-2015试卷李楚煌.

深圳大学期末考试试卷开/闭卷综述报告 A/B卷课程编号 1502320001 课程名称下一代互联网技术学分 2.5 命题人(签字) 崔来中审题人(签字) 年月日题号一二三四五六七八九十基本题总分附加题得分评卷人《下一代互联网技术》课程综述报告要求：课程综述报告由个人独立完成。要求学生从教师的授课专题，包括：下一代互联网过渡技术（翻译技术和隧道技术）云计算（资源调度、存储、安全）社交网络（推荐、影响力分析、传播模型）物联网（无线传感器网络、节能技术）搜索技术（爬虫技术、图片搜索、语义搜索） P2P（文件下载、流媒体分发）大数据处理与分析技术（网络与机器学习）多媒体网络（多媒体网络与SDN、流媒体与机器学习）软件定义网络（SDN与安全、SDN与流量优化、SDN与网络管理）选择一个专题中的具体技术问题（上述括号内为推荐的问题内容）作为综述报告主题，综述报告名称自拟，参照附件一“综述报告格式模板”与附件二“综述报告写作指导完成综述报告”；评分标准见附件三。提交的课程综述报告要符合深圳大学相关的格式规范。第17周提交课程综述报告电子版到blackboard系统，纸质版交到任课老师处。附件一综述报告格式模板深圳大学考试答题纸 (以论文、报告等形式考核专用)二○一～二○一学年度第学期课程编号 1502320001 课程名称下一代互联网技术主讲教师崔来中评分学号 2013150383 姓名李楚煌专业年级大三网络工程01 教师评语：题目：网页搜索中爬虫技术的若干研究前言在21世纪互联网高速发展的背景下，搜索引擎在人们生活中有着举足轻重的作用，而网络爬虫是搜索引擎中的重要的信息采集器，是搜索引擎技术的核心部分。本文是对爬虫技术在现今网络环境中出现不同的问题、漏洞提出一些针对性的探究方法，并对各种方法进行实验分析，主要研究分析工作如下: 网络爬虫中的核心技术部分，即网络爬虫系统的多线程设计与实现，详细介绍网络爬虫的概念及信息分类涉及到的算法，技术要点，并探讨实现对漏洞平台当中的爬虫技术的聚焦。网络爬虫的核心在于，以端口接通为设计基础，依据HTTP协议，使用SOCKET套接字相关函数向服务器端发送HTTP请求，得到目标URL对应的网页内容，再从该网页提取出未爬取过的URL，将该URL重新作为源URL进行新的一轮向下爬取搜索工作，按照各种优先算法向下爬行，从而完成网络爬虫系统的爬行工作。在互联网中有着很多协议，它们彼此联系着，支持着许多网络程序的运行。网络爬虫系统是基于SOCKET协议的，而SOCKET协议的基础建立在TCP/IP协议之上。由此，网络爬虫是基于最原始的协议，依靠算法技术，组织分布式系统，非常有潜力进行强有力的数据探索与挖掘。既然网络爬虫的优势潜能如此巨大，接下来我会详细讨论近期我对这个技术的若干研究。阅读文献概述基于此次希望探讨的研究方向：网络爬虫，在中文文献方面，主要有以下阅读：多线程进行网络爬虫的过程优化,基于网络爬虫的Web信息采集技术，爬虫对漏洞管理平台核心帮助。在英文文献方面主要有：《A Cloud-based Web Crawler Architecture》 ,《A Spatial Web Crawler for Discovering》,《Design of improved focused web crawler》。这几篇文献探究的层次在于如何对信息进行有效地采集、采集的量如何够快够大、以漏洞管理平台为切口，看爬虫技术有哪方面的发展潜力。多线程爬虫又可以理解为分布式爬虫，主要阅读的部分有分布式网络爬虫结构设计，其中又细分为爬行节点的结构设计，控制节点的结构设计。分布式网络爬虫的关键技术在于，种子集合的优化选取，分布函数的选择。有这些分布式策略来带领多线程下载。而对网络信息的阅读，在于有效采集，需要对信息检索引擎有所划分：全文检索、目录索引型检索、元检索。再深入到网络爬虫的搜索策略，有深度优先搜索策略、宽度优先搜索策略、聚焦搜索策略。针对信息的实质内容，爬虫有其特色性质：布告栏的数据分类及并联式关联、视频的可预览及真实寻址、论坛的自动动态更新实现。对漏洞平台的爬虫聚焦技术的阅读，首先了解的是在漏洞平台这个领域，爬虫子模块的划分：爬虫接口模块、配置文件解析模块、网页爬取模块、网页解析模块、URL过滤去重模块、漏洞信息保存模块。在漏洞平台管理这个框架下，对爬虫效率如何改进、URL相关内容如何改