漏洞数据库文本聚类分析.docVIP

  • 21
  • 0
  • 约9.9千字
  • 约 19页
  • 2018-09-15 发布于福建
  • 举报
漏洞数据库文本聚类分析

漏洞数据库文本聚类分析   摘 要:为解决现有软件漏洞分类重叠性和实用性低等问题,提出了在漏洞实例聚类基础上的漏洞分类方法。对漏洞数据库(national vulnerability database, NVD)的漏洞描述字段进行文本聚类,并且使用聚类重叠性指标评估Simplekmean、BisectingKMeans和BatchSom聚类算法的效果,依据领域主导度选择典型的漏洞类型。实验结果显示近NVD中四万条漏洞数据聚类成45类典型漏洞,从而使软件漏洞研究工作从个体研究转变成对主导漏洞类型的研究。   关键词:漏洞数据库; 文本聚类; 聚类重叠指标; 主导漏洞类型   中图分类号:TP311文献标志码:A   文章编号:1001-3695(2010)07-2670-04   doi:10.3969/j.issn.1001-3695.2010.07.077      Text clustering method on national vulnerability database      TANG He-ping, HUANG Shu-guang, HUAI Jia-gang, LI Yong-cheng      (Dept. of Network Engineering, Electrionic Engineering Institute of PLA, Hefei 230037, China)      Abstract:In order to solve the problem of overlap and low efficiency in software vulnerability taxonomies, proposed vulnerability classifying method based on text clustering of vulnerability descriptor fields in NVD (national vulnerability database), and used cluster overlap index to evaluate the performance of Simplekmean, BisectingKMeans and BatchSom clustering algorithms. The experimental results demonstrate that 45 dominant clusters are selected from approximate 40 000 vulnerability records in NVD according to descriptor dominance index, and it transforms the vulnerabilities research focuses from individuals to vulnerability taxonomies.   Key words:vulnerability database; text clustering; cluster overlap index; dominant vulnerability taxonomies      计算机漏洞信息属于安全敏感信息,在漏洞补丁发布前泄露漏洞细节信息将会造成巨大损失,漏洞信息发布需要详细描述漏洞信息,同时又必须对漏洞的部分细节保密。这样就造成了软件安全研究者尴尬的局面:既要充分地了解漏洞信息,又必须隐藏漏洞的细节。目前多个公开的漏洞信息库都遵循了一定的漏洞发布策略,在信息公示与安全保密之间取得平衡。   目前对漏洞数据的研究主要集中在单个漏洞的发现和利用方面,忽视了对整个漏洞数据潜在知识的发掘[1]。针对该问题,本文在构建漏洞信息库的基础上,使用数据挖掘技术,把漏洞数据集作为一个有机整体进行知识发现研究。   1 漏洞聚类研究现状   聚类分析作为一种无监督的机器学习方法已有几十年的研究历史,是数据挖掘的主要任务之一。聚类算法从整体上可以分为基于层次化聚类、基于模型聚类、基于密度的聚类和自组织聚类。在层次化聚类中,类别之间可以嵌套,一个实例可以属于不同层次的多个类别。基于模型聚类事先假定各种类别具有一定的概率分布模型,聚类的过程中就是尽可能准确估计不同类别的概率密度函数的参数。基于密度的聚类认为类别是具有高度密集的区域,实例之间相互吸引,在核心区域对象相互吸引,因而密度较高;在外围区域实例分布稀疏。自组织映射SOM[2]是将实例对象从高维样本空间映射到二维或三维空间中,相似的实例对象映射后聚集在一起。相对K-mean聚类算法,自组织映射SOM鲁棒性更好,可以处理

文档评论(0)

1亿VIP精品文档

相关文档