- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.KDDCup99网络入侵检测数据介绍
对于入侵检测的研究,需要大量有效的实验数据。数据的采集可以通过一些抓包工具来获得,如Unix下的Tcpdump,Windows下的Libdump,或者专用的软件snort捕捉数据包,生成连接记录作为数据源。在此,本文介绍基于数据挖掘的入侵检测技术研究中使用的KDDCup99[1]的网络入侵检测数据集。
该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。
在训练数据集中包含了1种正常的标识类型normal和22种训练攻击类型,如表1-1所示。另外有14种攻击仅出现在测试数据集中。
表1-1 KDDCup99入侵检测实验数据的标识类型
标识类型 含义 具体分类标识
Normal 正常记录 normal
DOS 拒绝服务攻击 back、land、neptune、pod、smurf、teardrop
Probing 监视和其他探测活动 ipsweep、nmap、portsweep、satan
R2L 来自远程机器的非法访问 ftp_write、guess_passwd、imap、multihop、phf、spy、warezclient、warezmaster U2R 普通用户对本地超级用户特权的非法访问 buffer_overflow、loadmodule、perl、
rootkit
KDDCup99训练数据集中每个连接记录包含了41个固定的特征属性和1个类标识,如图1-1所示,标识用来表示该条连接记录是正常的,或是某个具体的攻击类型。在41个固定的特征属性中,9个特征属性为离散(symbolic)型,其他均为连续(continuous)型。
duration,protocol_type,service,flag,src_bytes,dst_bytes,land,
wrong_fragment,urgent,ho,num_failed_logins,logged_in,num_compromised,
root_shell,su_attempted,num_root,num_file_creations,num_shells,
num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count,
srv_count,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,
same_srv_rate,diff_srv_rate,srv_diff_host_rate,dst_host_count,
dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,
dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,
dst_host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,
dst_host_srv_rerror_rate,class
0,udp,private,SF,
105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.0
0,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal.
0,udp,private,SF,
105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.0
0,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,snmpgetattack.
在实验研究中,一般使用KDDCup99中的网络入侵检测数据包kddcup_data_10percent。kddcup_data_10percent数据包是对kddcup_data数据包(约490万条数据记录)10%的抽样。
2.数据预处理
聚类算法中要使用计算距离的方法对数据进行聚类[2],而连接记录的固定特征属性中有两种类型的数值:离散型和连续型。对于连续型特征属性,各属性的度量方法不一样。一般而言,所用的度量单位越小,变量可能的值域就越大,这样对聚类结果的影响也越大,即在计算数据间距离时对聚类的影响越大,甚至会出现“大数”
您可能关注的文档
最近下载
- 《常见的妇科阴道炎》PPT课件ppt.pptx VIP
- 2025新疆天泽水利投资发展有限公司及所属二级企业部分岗位社会招聘30人备考题库及答案解析.docx VIP
- 2025年匹克球主题团建活动方案.pdf VIP
- 2021年中华护理学会10项团体标准成人住院患者跌倒风险评估及预防.docx VIP
- TAVI(经皮导管主动脉瓣植入术)术后护理.pptx VIP
- 《中医学概论》课程教学大纲(本科).pdf VIP
- 冷冻食品生产质量控制措施.docx VIP
- 2023年新疆水利投资控股有限公司人员招聘考试参考题库及答案解析.docx VIP
- 围墙施工方案(围墙施工方案).doc VIP
- 中职中专新生入学开学第一课教育精品(1).ppt VIP
文档评论(0)