朴素贝叶斯分类在入侵检测中的应用.docVIP

下载本文档

25
0
约6.96万字
约 9页
2017-01-13 发布于贵州
举报
版权申诉

　朴素贝叶斯分类在入侵检测中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　朴素贝叶斯分类在入侵检测中的应用

朴素贝叶斯分类在入侵检测中的应用 ?摘? 要? 贝叶斯分类能高效地处理大型数据，本文使用核密度估计的朴素贝叶斯分类来进行入侵检测。由于入侵检测审计数据属性多为连续变量，所以在贝叶斯分类算法中使用核密度估计，有助于提高分类的精度，另引入对称不确定方法有效地删除不相关的检测属性，进一步提高分类效率。关键字? 贝叶斯；核密度；入侵检测；分类? 在入侵检测系统中，为了提高系统的性能，包括降低误报率和漏报率，缩短反应时间等，学者们引入了许多方法，如专家系统、神经网络、遗传算法和数据挖掘中的聚类，分类等各种算法。例如：Cooper Herkovits提出的一种基于贪心算法的贝叶斯信念网络，而Provan Singh Provan， Singh M和其他学者报告了这种方法的优点。贝叶斯网络说明联合条件概率分布，为机器学习提供一种因果关系的图形，能有效的处理某些问题，如诊断：贝叶斯网络能正确的处理不确定和有噪声的问题，这类问题在任何检测任务中都很重要。然而，在分类算法的比较研究发现，一种称作朴素贝叶斯分类的简单贝叶斯算法给人印象更为深刻。尽管朴素贝叶斯的分类器有个很简单的假定，但从现实数据中的实验反复地表明它可以与决定树和神经网络分类算法相媲美[1]。在本文中，我们研究朴素贝叶斯分类算法，用来检测入侵审计数据，旨在开发一种更有效的，检验更加准确的算法。贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性，如给定样本属于一个特定类的概率。朴素贝叶斯分类[2]假定了一个属性值对给定类的影响独立于其它属性的值，这一假定称作类条件独立。设定数据样本用一个 n 维特征向量X={x1，x2，，xn}表示，分别描述对n 个属性A1，A2，，An样本的 n 个度量。假定有m个类 C1，C2，，Cm 。给定一个未知的数据样本 X，朴素贝叶斯分类分类法将预测 X 属于具有最高后验概率的类，当且仅当P(Ci | X) P(Cj | X)，1≤j≤m，j≠i 这样，最大化P(Ci | X)。其中P(Ci | X)最大类Ci 称为最大后验假定，其原理为贝叶斯定理： ??　　　公式(1) 由于P(X) 对于所有类为常数，只需要P(X | Ci)P(Ci)最大即可。并据此对P(Ci| X)最大化。否则，最大化P(X | Ci)P(Ci)。如果给定具有许多属性的数据集，计算 P(X | Ci)P(Ci)的开销可能非常大。为降低计算P(X| Ci )的开销，可以做类条件独立的朴素假定。给定样本的类标号，假定属性值相互条件独立，即在属性间，不存在依赖关系，这样， ?　　　公式(2)? 概率，可以由训练样本估值： (1) 如果Ak是分类属性，则P(xk|Ci)=sik/si其中sik是Ak上具有值xk的类Ci的训练样本数，而si是Ci中的训练样本数。 (2) 如果Ak是连续值属性，则通常假定该属性服从高斯分布。因而 ?? 公式(3) 其中，给定类Ci的训练样本属性Ak的值，是属性Ak的高斯密度函数，而分别为平均值和标准差。朴素贝叶斯分类算法(以下称为NBC)具有最小的出错率。然而，实践中并非如此，这是由于对其应用假定的不确定性，以及缺乏可用的概率数据造成的。主要表现为： ①不同的检测属性之间可能存在依赖关系，如protocol_type，src_bytes和dst_bytes三种属性之间总会存在一定的联系； ②当连续值属性分布是多态时，可能产生很明显的问题。在这种情况下，考虑分类问题涉及更加广泛，或者我们在做数据分析时应该考虑另一种数据分析。后一种方法我们将在以下章节详细讨论。核密度估计是一种普便的朴素贝叶斯方法，主要解决由每个连续值属性设为高斯分布所产生的问题，正如上一节所提到的。在[3]文中，作者认为连续属性值更多是以核密度估计而不是高斯估计。朴素贝叶斯核密度估计分类算法十分类似如NBC，除了在计算连续属性的概率时：NBC是使用高斯密度函数来评估该属性，而K-NBC正如它的名字所说得一样，使用高斯核密度函数来评估属性。它的标准核密度公式为 ?? 　　　　公式(4) 其中h=σ 称为核密度的带宽，K=g ，定义为非负函数。这样公式变形为公式公式(5) 在K-NBC中采用高斯核密度为数据分析，这是因为高斯密度有着更理想的曲线特点。图1说明了实际数据的概率分布更接近高斯核密度曲线。图1 ?两种不同的概率密度对事务中数据的评估，其中黑线代表高斯密度，虚线为核估计密度并有两