- 0
- 0
- 约2.2千字
- 约 3页
- 2026-01-25 发布于北京
- 举报
面向安全的大数据分析方法和思路
一、课程目的
通过学习,使了解大数据的概念和特征、如何将大数据分析方法用于安全分析、如何从
大数据中发现异常行为和、如何发现未知和异常、如何发现未感知的和异
常。
二、课程内容
介绍大数据的概念和特征,面向安全的大数据分析的目的是希望从大数据中分析出异常行为或
,尤其是未知且未感知的和异常。从原理的层面对适用于异常检测的大数据分
析算法做了详细介绍,然后介绍大类数据分析的两大思路,即告警驱动的分析方法和数据驱
动的分析方法。举例说明如何利用前述的分析算法和分析思路获得期望的分析结果。
三、课程大纲
第一章大数据分析概述
介绍大数据的概念和特征,面向安全的大数据分析的目的是希望从大数据中分析出异常行
为或,尤其是未知且未感知的和异常。
1、大数据(Bigdata)的前世今生
假如我们有了一个数据预报台,就像为企业装上了一个GPS和,企业的出海将
会更有把握。——2012年网商大会
2、大数据的4V特征
1V-Volume,数据体量巨大。从TB级别,跃升到PB级别
2V-Variety,数据类型繁多。网络日志、、、地理位置信息、购物
等等
3V-Value,价值密度低。以为例,连续不间断过程中,可能有用的
数据仅一两秒
4V-Velocity,处理速度快。1秒定律。这一点和传统的datamining有着本
质不同
3、大数据的价值
纵向:消费者、企业与价值链
横向:“大数据”(比如的数据)和“大交互数据”(比如一些
社交,移动互联网新等)
两类数据融合:容易洞察“客户”,掌控消费趋势、开发创新产品和推进
精确
第二章适用于异常检测的大数据分析算法原理
1、经典统计方法
组合优化
EM优化
2、聚类分析算法
例如,我们可以根据各个网点的储蓄量、人力资源状况、营业面积、特色功能、网点
级别、所处功能区域等因素情况,将网点分为几个等级,再比较各之间不同等
级网点数量对比状况。
直接聚类法
最短距离聚类法
最远距离聚类法
3、相似性分析算法
检测效率高
相似列表片段
4、关联分析算法
关联算法是数据挖掘中的一类重要算法。1993年,R.Agrawal等人首次提出了挖掘
顾客数据中项目集间的关联规则问题,其是基于两阶段频繁集思想的递推
算法。该关联规则在分类上属于单维、单层及布尔关联规则,典型的算法是Aprior
算法。
5、分类算法
决策树
贝叶斯
K-近邻
基于关联规则的分类
集成学习
6、文本分析
(I)用映射或变换的方法把原始特征变换为较少的新特征。
(2)从原始特征中挑选出一些最具代表性的特征。
(3)根据专家的知识挑选最有影响的特征。
(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精
确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
第三章面向安全的大数据分析思路
1、可分析数据
可靠性数据分析
智能数据分析
多元统计分析
2、分析的过程
数据是信息的载体,也是今后系统要处理的主要对象。因此,必须对系统中所
有搜集的数据以及统计处理数据的过程进行分析和整理。不清楚的问题,应立
原创力文档

文档评论(0)