- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基础知识
机器学习中有两类的大问题,一个是分类,一个是聚类。在我们的生活中,常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,而在机器学习中,分类和聚类有着本质上的区别。
聚类
比如某一天,你拿到这样一份相亲数据:(每个特征的数值都被分为高中低三类,用3,2,1表示),需要对里面的人进行划分,由于这些人没有标签,因此只能用到聚类,也就是抱团行动,物以类聚,人以群分。最后发现001号和002号被聚在了一起,003号和004号聚在一起,最后这四个人被聚成了2类,并且通过类内的特征分析你大概能感受到这两类的显著特征,这就是无监督的学习(数据没有标签)。
对象ID
身高
体重
颜值
收入
001
????3
?2??
3
3
002
3
2
2
3
003
1
3
2
1
004
1
3
1
1
分类
比如某一天,你又拿到了这份相亲数据,但这个时候发现相比之前又多了一列:类标,这个时候就可以做分类了,把这些数据作为训练样本,扔到模型里一跑,就能够得出高富帅的特征和屌丝的特征,这就是有监督的学习(数据有标签)。
对象ID
身高
体重
颜值
收入
类标
001
3
2??
3
3
高富帅
002
2
2
3
3
高富帅
003
1
3
2
1
屌丝
004
1
3
1
1
屌丝
模型训练
分类模型训练时,有两个重要概念:训练集和测试集。说白了就是先学习再考试。训练集用来“学习”,测试集用来“考试”。比如我们将上面的例子中的ID001和ID003作为训练集,将ID002和ID004作为测试集。模型首先对训练集进行学习,搞明白“屌丝”和“高富帅”的差别在哪里,然后对测试集进行验证。在验证时,尽管我已经知道了在现实生活中002是“高富帅”,004是“屌丝”,但是我假装不知道,让模型根据之前学习的情况和认知对他们进行分类。假如模型最后的判断结果和现实一样,那么恭喜你,模型已经有“分类大脑”了,假如没能正确分类,那么还需要更多的数据让他继续学习,直到准确率达到你想要的标准。
预测
这个时候,你遇到了一个人:005,他的(身高,体重,颜值,收入)的数据为(3,1,2,2)即(高,低,中,中),你就可以放到模型中进行预测,模型会根据之前学习到的特征来判断,他到底是屌丝还是高富帅,然后你就可以决定到底要跟他继续玩耍还是saygoodbye,这就是数据对决策的支撑。
网络攻击行为的分类
回到网络攻击的分类,现在手上有一份网络攻击者的web日志的历史数据,事先必须确定好两点:
1、?有特征数据吗?
2、?有类标吗?
如果满足这两个条件,那么就可以按照上面的例子,整理出下面这样一份表格:
IP
特征1
特征2
特征3
特征3
……
特征n
类标
1
X11
X12
X13
X14
……
X1n
SQL注入攻击
2
X21
X22
X23
X24
……
X2n
XSS跨站脚本攻击
这个时候你就会发现,尽管网络攻击行为分类和“高富帅”“屌丝”的分类没有半毛钱的关系,但是对于模型的学习过程和方法来说,是一样的。
首先提取中web日志中的各个字段,将一些字段的数据转化为特征(一些原始数据必须经过清洗和特征转化,特征提取是一个关键工程,后续再说),并且已知他们的类标是“SQL注入攻击”、“XSS跨站脚本攻击”等各种攻击类型。
攻击者在之前的攻击行为中会在WEB日志上留下痕迹——比如在URL中留下一些非法的字符,这就是特征。将特征作为模型的输入,模型通过学习会知道如何将他们进行最大程度的区分,这就是模型学习的过程。
当有新的攻击者出现并在WEB日志中留下攻击痕迹时,模型可以通过先前的学习进行预测,判断其属于哪一类的攻击行为。
question
Wait,见过web日志的小伙伴都知道web日志长这样:
那么问题来了:
1、?要怎么提取特征?这可没有像形容一个人“身高”、“体重”等那么容易,尽管你可以统计一些诸如频率等的特征,不过一般攻击行为的信息大多在URL中,而URL乍一看,是一堆英文字符堆砌在一起,说起来跟文本倒是有点像;
2、?要怎么分类?上面提到包含关键信息的URL跟文本有点像,那么网络攻击的分类也需要按照文本分类的方向去思考。
您可能关注的文档
最近下载
- 2025年中国电子信息产业集团有限公司招聘笔试参考题库含答案解析.pdf
- 《电磁兼容+试验和测量技术+第11部分:对每相输入电流小于或等于16+a设备的电压暂降、短时中断和电压变化抗扰度试验gbt 17626.11-2023》详细解读 .pdf
- 合肥市申领居住证的申请.docx
- 高考二轮复习资料专题二2.2 动能定理和动量定理(二).doc VIP
- 2024年重庆市中考地理试题卷(含官方答案及解析).docx
- 湖北省恩施市第一中学2025届高三最后一模数学试题含解析.doc
- 2024年河南经贸职业学院单招职业技能测试题库及答案解析.pdf VIP
- 2022年版语文课程标准新课标考试题库及答案6.pdf
- 试卷讲评教学反思(8篇).pdf VIP
- 钢结构施工技术交底..doc VIP
文档评论(0)