利用Windows Native API调用序列和基于决策树算法主机异常检测.docVIP

下载本文档

30
0
约4.75千字
约 10页
2018-08-24 发布于福建
举报
版权申诉

利用Windows Native API调用序列和基于决策树算法主机异常检测.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

利用Windows Native API调用序列和基于决策树算法主机异常检测

利用Windows Native API调用序列和基于决策树算法主机异常检测　　摘要：主要研究Windows平台下的异常检测方法，提出一种利用Windows Native API调用序列和基于决策树算法的主机服务进程模式抽取算法，并通过在模式中引入通配符而大大缩减了模式集的规模。进一步引入了表征模式间关系的转移概率，建立了模式序列的全局马尔可夫链模型，并给出了相应的异常检测算法。实验结果表明：该算法可以抽取一个规模较小且泛化能力较强的模式集，相应的检测算法可以有效地检测异常。　　关键词：主机异常检测; Windows Native API;决策树;间断模式　　中图法分类号：TP393．08文献标识码：A 　　文章编号：1001－3695(2007)01－0258－03 　　　　主机异常检测是利用进程的相关信息对其正常行为进行建模，从而在一定程度上描述程序的内部结构与逻辑。在建模时，可将进程看作一个黑箱[1, 3, 6, 7]，仅利用进程行为的外部表现信息(主要是类UNIX平台下的日志、系统调用等)。这些建模算法多是从正常进程中提取只反映定长或变长局部时间窗之内行为模式，并用生成的模式集匹配待检测序列。为得到较好检测效果，这些算法试图对程序的正常行为空间尽可能完全地覆盖，往往会造成对训练数据过拟合。这种过拟合导致模式集规模过大，其中包含了大量频率很低的模式，使算法很难在检测能力与计算效率之间取得很好的权衡。另外，局部模式反应的可能是一个函数调用或循环的一次执行所产生的局部信息，因此只考虑这种局部信息，难免要影响对程序全局结构与逻辑的正确描述。文献[2，3]讨论了模式间的关系，并建立了程序全局模型，但是其检测算法没有充分利用各模式间转移特性。?? 　　本文主要研究Windows平台下的异常检测方法。对关键进程采集了Windows Native API序列数据，通过抽取其间断模式避免了对训练数据的过拟合，并用转移概率描述了模式间的关系，从而更有效地利用了各个模式间的转移特性，建立了全局模型。?? 　　　　1序列训练算法?? 　　　　1．1数据预处理?? 　　将采集到的一个关键进程的数据按不同线程分成几个独立部分。用滑动窗n切割，并整理为C4.5可以处理的格式。对定长模式方法，n=6被认为是检测能力与效率的最佳权衡[5]。但本文不仅考虑了定长序列内部信息，还考虑了序列间信息，故选n6的滑动窗试验，且当n=4时仍可得到较好结果，而当n4时检测能力则显得不足，所以我们取n=4的滑动窗。这样便可以在不影响检测能力的情况下，大大减少模式数量，从而提高检测效率。 ?? 　　类属性的选择是基于对程序的系统调用和Native API的以下认知：离属性Y(Y∈{A,B,CD})越近的列与Y的相关性越大，从而若选取Y为靠近中间的列，就可以使得数据中对Y影响大的属性更多，有利于更好地分类。通过试验，当选择二三列为Y时，正确分类率均达到了97%以上；选取一四列为Y时，正确分类率小一些。而这里的目的是得到较少的模式和对正常数据的较高覆盖率，所以选择第二列B作为决策属性，如图1所示。?? 　　　　1．2间断模式抽取?? 　　未修剪的决策树对训练数据的覆盖率会非常高，模式也比较多，因此第二步的修剪是必要的。C4.5中常用的修剪算法有REP(Reduced Error Prune)和EBP(Error Based Prune)。 EBP算法在较少模式和较高准确性之间有很好的权衡，并且对数据集有很强的稳定性和泛化能力[4]，因此本文选择EBP算法。?? 　　表 1修剪方法比较　　　　定义2所有出现次数≥1的候选模式构成了模式库Φ={cp(t)|t∈Ω??T′,n(t)≠0}。其中Ω??T表示T′的叶节点集。?? 　　这一步生成了间断模式集Φ。由表1可知，其模式数量处于一个较低的水平。?? 　　　　1．3模式间转移关系建模?? 　　应用程序的执行路径通常并不是不同模式的任意组合，而也是服从着一些特定的顺序关系。所以还要考虑模式间的转移关系，进而建立全局模型。已有一些文献中[8,9]用MCM对系统调用序列信息直接进行建模，但效果并不理想。本文应用马尔可夫模型来考虑模式之间的顺序特性。?? 　　1．3．1模式序列的马尔可夫链模型(MCM)?? 　　用得到的间断模式对Native API序列进行匹配，可以得到一条模式序列，它是模式间关系的研究对象。?? 　　定义3pseq(k)k=1,2,…，是一正常关键进程产生的模式序列，若它服从马尔可夫假设，则可将其称为一个马尔可夫模式链，　　　　1．3．2转移概率的估计?? 　　马尔可夫链模型的转移概率矩阵和初始概率分布是用长度为2的定长窗切割pse