机器学习在恶意样本检测方面的实践之路.pdf

机器学习在恶意样本检测方面的实践之路.pdf

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习在恶意样本检测方面的实践之路

机器学习在恶意样本检测方面 的实践之路 东巽科技(北京)有限公司 |2 来自恶意样本的挑战 每天不断新增的可疑样本,分析和判别是两回事! |3 判定规则,之外还有什么? 机器学习是人工智能的核心,也是大数据分析的基石。 |4 我们目前的成果 ? 样本不均衡解决方法:过采样 ? 样本训练集:重复正常样本数据,使得正常 样本与恶意样本近似1:4(17288个样本集,包 含正常样本3208个,恶意样本14080个) ? 特征:APIs ? 算法:RandomForest ? 样本预测集:约15万 ? 识别率:98.84% CONTENTS 初识机器 学习 入门级简单 实践 工程化的那 些坑 |6 对机器学习的粗浅认识 Tools Technology Way |7 两个学科的结合 ? 懂机器学习算法的,缺乏领域里的专业知识 ? 有领域专业知识的,不懂机器学习算法 ? 二者各自领域都存在比较高的门槛 机器学习 安全领域 |8 机器学习的经典流程:训练和预测 |9 怎么落地? 如何选择要输入什么内 容? 输入的是到底什么形式 的数据? 输入的数据如何产生, 从哪来呢? 输入怎么区分定义? 收集输入 什么是特征,怎么分类? 多维度特征是什么意思? 如何选择更有效特征? 对机器学习而言,特征 的选取很关键! 特征抽取 机器学习算法五花八门, 看得眼花缭乱,该如何 选择算法来做训练好呢? 采用聚类呢?还是分类 算法呢? 机器学习算法 要如何衡量训练的结果 模型的好坏? 如何衡量是哪个因素导 致的模型结果的好坏? 评价衡量算法 CONTENTS PAGE 02 入门级简单实践 |11 输入数据 ? 样本动态分析 ? 样本静态分析 PE IDA Pro、OllyDbg、LordPE、OllyDump ProcessMonitor、Wireshark、CWSandbox、 Cuckoo 一切可以收集到、真实准确的信息都可以尝试拿来作 为机器学习的输入数据。 |12 特征抽取 ? 系统资源操作行为 ? 系统API调用行为 ? 函数调用行为 ? 字符资源调用行为 ? 线程操作行为 ? 数据流处理行为 ? …… ? 样本静态报告信息:关键汇编代码段、动态库导入、可打印字符、函数长度、 控制流图…… 虚拟化沙箱 PE 样本动态分析报告 东巽铁穹产品中的沙箱分析引擎每天都在产生大量的样 本动态行为报告日志 铁穹沙箱分析引擎 |13 机器学习算法的选取 聚类 or 分类? 基于业务需求考虑,还是从监督模式的分类算法起步,把可疑样本分成恶 意样本和非恶意样本两类 |14 WEKA WEKA作为一个公 开的数据挖掘工作平台, 集合了大量能承担数据 挖掘任务的机器学习算 法,包括对数据进行预 处理,分类,回归、聚 类、关联规则以及在新 的交互式界面上的可视 化。 PS:WEKA存储数据的格式是ARFF,同时WEKA也支持json、 csv等格式的数据文件 |15 评价和衡量算法优劣 ? 正确率,即被分对的样本数除以所有的样 本数,accuracy = (TP+TN)/(P+N) ? 错误率,也叫误差,error rate = (FP+FN)/(P+N)=1- accuracy ? 精度,即被分为正例的示例中实际为正例 的比例, precision=TP/(TP+FP) ? 召回率,是覆盖面的度量,度量有多个正 例被分为正例, recall=TP/(TP+FN)=TP/P |16 简单实践的结果 ? 训练样本信息: 样本数据共7099个32位PE可执行程序,其中包含恶意 样本数据4000条,非恶意样本数据3099条。 ? 训练样本信息路径:\analysis-datas\datamining\000001 ? 算法选择: 逻辑回归 ? 训练模式: 100%,即样本均作为训练样本 ? 训练结果: 正确率:92.6328 % 错误率:7.3672 % ? 测试样本信息: 测试样本数据一共为1000条,均为32位恶意PE可执 行程序。 ? 测试结果:(正确率和错误率)正确率:88.1 % 错误率:11.9 % CONTENTS PAGE 03 工程化的那些坑 |18 算法模型调优 在理解算法参数的基础上,对每种算法参数的调优,并 加快迭代收敛。然后再通过对算法作横向对比,对于每种算 法的优劣、适用场景会有更深的认识。 测试算法 漏报 误报 逻辑回归 24% 20% SVM 22% 43% 随机森林 12.8% 10% 该实验结果表明,随机 森林算法优于逻辑回归 及SVM算法 小实验:分别使用不同的算法训练生成模型,再对另一批恶意及非 恶意样本进行测试。 |19 尝试引入新的特征向量 ? 不同层面 ? 不同维度 ? 不同颗粒度 多角度观察数据的特征 |20 欠拟合

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档