浅谈网络安全大数据分析.docVIP

下载本文档

0
0
约3.17千字
约 5页
2025-03-21 发布于辽宁
举报
版权申诉

浅谈网络安全大数据分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

编号：

时间：2021年x月x日

书山有路勤为径，学海无涯苦作舟

页码：第PAGE4页共NUMPAGES5页

第

第PAGE4页共NUMPAGES5页

浅谈网络安全大数据分析

随着网络规模和移动应用的不断扩大，当前网络安全面临的威胁不断增加。一是国家和企事业所面临的网络空间安全形势严峻，需要应对的攻击和威胁变得日益复杂，这些网络安全威胁具有隐蔽性强、潜伏期长、持续性强的特点。二是伴随着大数据和云计算时代的到来，网络安全问题正在变成一个大数据问题，企业和组织的网络及系统每天都在生成海量的数据，并且产生的速度越来越快。如何利用大数据技术进行网络安全分析平台的研究是热点也是难点，因此本文对基于Spark技术的网络安全大数据分析平台的研究具有一定意义。

一、网络安全现状及主要问题

当前移动互联网、大数据及云技术等更新进程不断加快，数据量成指数级增长，人们对于大数据时代下网络安全的相关问题也越来越关注。信息技术创新发展伴随的安全威胁与传统安全问题相互交织，使得网络空间安全问题日益复杂隐蔽，面临的网络安全风险不断加大，各种网络攻击事件层出不穷。2016年，我国互联网网络安全状况总体平稳，未出现影响互联网正常运行的重大网络安全事件，但移动互联网恶意程序数量持续高速上涨且具有明显趋利性；来自境外的针对我国境内的网站攻击事件频繁发生；联网智能设备被恶意控制，并用于发起大流量分布式拒绝服务攻击的现象更加严重；网站数据和个人信息泄露带来的危害不断扩大；欺诈勒索软件在互联网上肆虐；具有国家背景黑客组织发动的高级持续性威胁（APT）攻击事件直接威胁了国家安全和稳定。由于大数据网络安全攻击事件仍呈高发态势，而且内容多又复杂，利用大数据分析技术特有的特点，为大规模网络安全事件监测分析提供计算支撑力量，并且对海量的基础数据进行深度挖掘及分析处理，及时监测发现网络安全事件，实现对整体网络安全态势的感知。

二、大数据基本概述及分析技术

（一）大数据基本概述

随着信息技术全面融入社会生活，整个世界的信息量正在不断增多，而且增长的速度也在不断加快。所谓的大数据是指无法在一定时间范围内用常规软件工具进行获取、存储、管理和处理分析的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的规模之大，其在获取、存储、分析等方面已经远远超出传统软件工具能力范围，业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征，分别是大量化，多样化，快速化，价值密度低。

（二）HadoopMapReduce大数据技术

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外，还提供了叫做MapReduce的数据处理功能。HadoopMapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念”Map（映射）”和”Reduce（归约）”，其来源于函数式编程语言或者矢量编程语言里的特性。Mapreduce是一个计算框架，其表现形式就是具有一个输入（input），mapreduce操作这个输入（input），通过本身定义好的计算模型，得到一个输出（output），这个输出就是最终需要的结果，计算模型如下图所示：

（三）Spark大数据分析技术

Spark是一个基于内存计算的开源的集群(分布式）计算系统，Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，非常短小精悍。由于是基于内存计算，效率要高于拥有Hadoop，Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，节省了磁盘IO耗时，号称性能比Hadoop快100倍。Spark是继HadoopMap-Reduce之后新兴的基于内存的大数据计算框架，相对于HadoopMapReduce来说，Spark具有一定的优势。一是计算速度快。大数据处理首先追求的是速度。官方指出“Spark允许Hadoop集群中的应用程序在内存中以100倍的速度运行，即使在磁盘上运行也能快10倍”。二是应用灵活。Spark在简单的Map及Reduce操作之外，还支持SQL查询、流式查询及复杂查询，比如开箱即用的机器学习算法。同时，用户可以在同一个工作流中无缝地搭配这些能力，应用十分灵活。三是兼容性好。Spark可以独立运行，除了可以运行在当下的YARN集群管理外，还可以读取已有的任何Hadoop数据。它可以运行在任何Hadoop数据源上，比如HBase、HDFS等。四是Spark比Hadoo