《大数据架构与设计》课程报告讲解-基于Spark的实时攻击检测.pptxVIP

下载本文档

3
0
约1.81千字
约 13页
2024-01-07 发布于浙江
举报
版权申诉

《大数据架构与设计》课程报告讲解-基于Spark的实时攻击检测.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark的实时攻击检测

CONTENTS目录背景介绍PART01数据集PART02技术要点PART03总结PART04

背景介绍PARTONE

背景介绍数据集技术要点总结1.1分布式拒绝服务攻击SparkStream工作机制分布式拒绝服务攻击(DistributedDenialofService，简称DDoS)是指处于不同位置的多个攻击者同时向一个或数个目标发动攻击，或者一个攻击者控制了位于不同位置的多台机器并利用这些机器对受害者同时实施攻击。由于攻击的发出点是分布在不同地方的，这类攻击称为分布式拒绝服务攻击，其中的攻击者可以有多个。分布式拒绝服务攻击方式在进行攻击的时候，可以对源IP地址进行伪造，这样就使得这种攻击在发生的时候隐蔽性非常好，同时要对攻击进行检测也是非常困难的，因此这种攻击方式也成为了非常难以防范的攻击。

数据集PARTTWO

背景介绍数据集技术要点总结2.1数据集介绍SparkStream工作机制数据集来源于Kaggle，该数据集最初是由纽布伦斯威克大学创建的，用于分析DDoS数据。数据集本身基于大学服务器的日志，该日志在整个公开可用期内发现了各种DDoS攻击。

技术要点PARTTHREE

背景介绍数据集技术要点总结3.1Flume+Kafka+SparkStreaming框架SparkStream工作机制使用Flume+Kafka架构完成实时流式的日志处理，后面再连接上SparkStreaming流式实时处理技术，从而完成日志实时解析的目标。第一、如果Flume直接对接实时计算框架，当数据采集速度大于数据处理速度，很容易发生数据堆积或者数据丢失，而kafka可以当做一个消息缓存队列，从广义上理解，把它当做一个数据库，可以存放一段时间的数据。第二、Kafka属于中间件，一个明显的优势就是使各层解耦，使得出错时不会干扰其他组件。因此数据从数据源到flume再到Kafka时，数据一方面可以同步到HDFS做离线计算，另一方面可以做实时计算，可实现数据多分发。

背景介绍数据集技术要点总结3.2两种预测模型SparkStream工作机制决策树(DecisionTree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

背景介绍数据集技术要点总结3.2两种预测模型SparkStream工作机制深度学习

背景介绍数据集技术要点总结3.3分布式SparkStream工作机制使用Flume+Kafka架构完成实时流式的日志处理，后面再连接上SparkStreaming流式实时处理技术，从而完成日志实时解析的目标。第一、如果Flume直接对接实时计算框架，当数据采集速度大于数据处理速度，很容易发生数据堆积或者数据丢失，而kafka可以当做一个消息缓存队列，从广义上理解，把它当做一个数据库，可以存放一段时间的数据。第二、Kafka属于中间件，一个明显的优势就是使各层解耦，使得出错时不会干扰其他组件。因此数据从数据源到flume再到Kafka时，数据一方面可以同步到HDFS做离线计算，另一方面可以做实时计算，可实现数据多分发。

背景介绍数据集技术要点总结3.4数据库与可视化SparkStream工作机制基于Redis和Mysql：Redis是一个开源的、基于内存的数据结构存储器，可以用作数据库、缓存和消息中间件。基于Redis做了一个布隆过滤器，它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。当布隆过滤器说某个值存在时，那可能就不存在，如果说某个值不存在时，那肯定就是不存在了，所以在这次实验中用来判断进行攻击的IP是否存在。

谢谢大家