浅谈网络安全大数据分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

编号:

时间:2021年x月x日

书山有路勤为径,学海无涯苦作舟

页码:第PAGE4页共NUMPAGES5页

第PAGE4页共NUMPAGES5页

浅谈网络安全大数据分析

随着网络规模和移动应用的不断扩大,当前网络安全面临的威胁不断增加。一是国家和企事业所面临的网络空间安全形势严峻,需要应对的攻击和威胁变得日益复杂,这些网络安全威胁具有隐蔽性强、潜伏期长、持续性强的特点。二是伴随着大数据和云计算时代的到来,网络安全问题正在变成一个大数据问题,企业和组织的网络及系统每天都在生成海量的数据,并且产生的速度越来越快。如何利用大数据技术进行网络安全分析平台的研究是热点也是难点,因此本文对基于Spark技术的网络安全大数据分析平台的研究具有一定意义。

一、网络安全现状及主要问题

当前移动互联网、大数据及云技术等更新进程不断加快,数据量成指数级增长,人们对于大数据时代下网络安全的相关问题也越来越关注。信息技术创新发展伴随的安全威胁与传统安全问题相互交织,使得网络空间安全问题日益复杂隐蔽,面临的网络安全风险不断加大,各种网络攻击事件层出不穷。2016年,我国互联网网络安全状况总体平稳,未出现影响互联网正常运行的重大网络安全事件,但移动互联网恶意程序数量持续高速上涨且具有明显趋利性;来自境外的针对我国境内的网站攻击事件频繁发生;联网智能设备被恶意控制,并用于发起大流量分布式拒绝服务攻击的现象更加严重;网站数据和个人信息泄露带来的危害不断扩大;欺诈勒索软件在互联网上肆虐;具有国家背景黑客组织发动的高级持续性威胁(APT)攻击事件直接威胁了国家安全和稳定。由于大数据网络安全攻击事件仍呈高发态势,而且内容多又复杂,利用大数据分析技术特有的特点,为大规模网络安全事件监测分析提供计算支撑力量,并且对海量的基础数据进行深度挖掘及分析处理,及时监测发现网络安全事件,实现对整体网络安全态势的感知。

二、大数据基本概述及分析技术

(一)大数据基本概述

随着信息技术全面融入社会生活,整个世界的信息量正在不断增多,而且增长的速度也在不断加快。所谓的大数据是指无法在一定时间范围内用常规软件工具进行获取、存储、管理和处理分析的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的规模之大,其在获取、存储、分析等方面已经远远超出传统软件工具能力范围,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征,分别是大量化,多样化,快速化,价值密度低。

(二)HadoopMapReduce大数据技术

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。HadoopMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)”和”Reduce(归约)”,其来源于函数式编程语言或者矢量编程语言里的特性。Mapreduce是一个计算框架,其表现形式就是具有一个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是最终需要的结果,计算模型如下图所示:

(三)Spark大数据分析技术

Spark是一个基于内存计算的开源的集群(分布式)计算系统,Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。由于是基于内存计算,效率要高于拥有Hadoop,Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop快100倍。Spark是继HadoopMap-Reduce之后新兴的基于内存的大数据计算框架,相对于HadoopMapReduce来说,Spark具有一定的优势。一是计算速度快。大数据处理首先追求的是速度。官方指出“Spark允许Hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍”。二是应用灵活。Spark在简单的Map及Reduce操作之外,还支持SQL查询、流式查询及复杂查询,比如开箱即用的机器学习算法。同时,用户可以在同一个工作流中无缝地搭配这些能力,应用十分灵活。三是兼容性好。Spark可以独立运行,除了可以运行在当下的YARN集群管理外,还可以读取已有的任何Hadoop数据。它可以运行在任何Hadoop数据源上,比如HBase、HDFS等。四是Spark比Hadoo

文档评论(0)

偶遇 + 关注
实名认证
文档贡献者

个人介绍

1亿VIP精品文档

相关文档