改进遗传模糊聚类算法及其在入侵检测中应用.docVIP

下载本文档

3
0
约3.85千字
约 8页
2018-09-10 发布于福建
举报
版权申诉

改进遗传模糊聚类算法及其在入侵检测中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进遗传模糊聚类算法及其在入侵检测中应用

改进遗传模糊聚类算法及其在入侵检测中应用　　（湖南第一师范学院外语系外语教学综合实验中心，长沙 410205）　　摘要：本文提出了基于改进遗传算法的特征加权模糊聚类算法（IG-WFCM），通过对样本数据集进行聚类划分，以此来确定数据所属的类别。并通过入侵检测仿真实验对该算法进行了测试，结果表明本文的算法是可行的，在一定程度上提高了入侵检测算法的性能和效率。　　关键词：遗传算法；模糊聚类算法；入侵检测　　中图分类号：TP393.08 文献标识码：A 文章编号：1007-9599 （2013） 09-0000-02 　　模糊C-均值聚类是利用模糊理论进行数据分析的经典聚类算法，由于其能比较客观地反映现实模型，所以在数据挖掘、入侵检测等很多领域都获得了有效的应用[1，2]。遗传算法（GA）是一种模拟自然进化过程来进行查找最优解的高效全局优化搜索算法[3]，应用非常广泛。本文结合这两种算法的特点，提出了一种基于遗传算法的模糊聚类算法，并通过仿真实验对其在入侵检测中的表现进行研究。　　1 模糊C-均值聚类算法基本原理　　模糊C-均值聚类（FCM）算法基本原理：通过优化目标函数计算每个样本点对所有类别中心的隶属度，从而自动将样本分成c个模糊类别。　　设样本集，X={X1，X2，…，Xn}则特征向量样本，Xi=（Xi1，Xi2，…，Xim），xik为样本xi的第k个属性值。样本集X的c个模糊子类别为X1，X2，…XC，V=（V1，V2，…VC），Vj为类别Xj的聚类中心，隶属度矩阵U=（uij），xi对于Xj的隶属关系为uij。　　（1-1）　　（1-2）　　Jm为目标函数，表示样本到类别中心的距离平方和，dik=ㄧㄧXi-Vkㄧㄧ即样本xi到第k个类别中心Vk之间的欧式距离，模糊加权指数m∈（1，∞），其用来控制隶属度矩阵U的模糊程度，根据大量实验可知，m值一般取[1.5，2.5]。利用拉格朗日乘数法，结合条件∑ck=1Uik=1，Uik∈[0，1]，i=1，2，∧，n，k=1，2，..，c 　　可得：　　Uik=[∑cj=1（dik/dij）2/（m-1）]-1 （1-3）　　Vk=∑ni=1（Uik）mxi/∑ni=1（Uik）m （1-4）　　设置终止条件，通过式（1.3）和式（1.4）迭代计算，使目标函数Jm趋向最小，达到收敛的目的。　　2 属性处理及初始化聚类中心　　鉴于网络数据属性值之间的度量单位存在较大差异，为了减少对聚类结果的影响，需要对数据的属性进行预处理[5]。若X={x1，x2，...，xn}为样本集，则容量为n，维数为m，Xif表示第i个样本第f个属性值。xi包含r个连续型属性C1，C2，…，Cr和s个离散型属性T1，T2，…，Ts 　　本文对于离散型属性值采用基于不同状态的实数编码方式。N（tik）、N（tjk）分别表示属性Tk在样本集X中取值为tik和tjk的数量，dt（i，j）即样本xi和xj之间的离散型属性距离。　　dt（i，j）=∑sk=1（N（tik））/N（tik）N（tjk）*λ（tik，tjk）（1-5）　　λ（tik，tjk）={0（tik=tjk；）1（tik≠tjk）（1-6）　　式（1-7）中Xif即为标准化后的连续型属性值，设R1，R2，…，Rr分别是连续型属性C1，C2，…，Cr的取值范围。mf=1/n∑ni=1xif，sf=1/n∑ni=1（Xif-mf）。　　xif=xif-mf/sf （1-7）　　dc（i，j）=ω1（x`i1-x`j1）2+ω2（x`i2-x`j2）2+∧+ωr（x`ir-x`jr）2 （1-8）　　ωf=Rf/∑rk=1Rk，对连续型属性距离值dc（i，j）进行归一化处理如下：　　d`c（i，j）=dc（i，j）/max{dc（i，j）} （1-9）　　最后，样本xi和xj的混合属性距离即为DH（i，j）。　　DH（i，j）=r/（r+s）*d`c（i，j）+s/（r+s）*dt（i，j）（1-10）　　本文初始化聚类中心的确定采取文献5的方法，预先不设定聚类数目C，而是通过启发式聚类来自动确定聚类数目，从而划分聚类类别。网络数据样本集第一个聚类中心的计算可以采用属性算术平均值和属性最高频率取值的方法[5]。　　令第一个聚类中心V1的连续型属性向量A=（a1，a2，…，ak，…，ar），离散型属性向量B=（b1，b2，...，bk，…，bs）。ak为连续型属性Ck的算术平均值，bk为离散型属性Tk的最高频率值。　　ak=1/n∑nj=1xjk， k=1，2，…，r （1-11）　　v1=A+B=（a1，a2，∧，ar，b1，b2