- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术下信息安全监督及控制框架
构建
摘要:本文以数据挖掘技术为基础,提出了信息安全监督 与控制的基本框架结构,该框架以多种方式对网络数据与信 息进行收集加工,最终形成信息安全数据库,之后对数据进 行挖掘,生成信息安全监督与控制的对象与监控对象之间的 关联特征,进而推动对信息的有效监督与控制。
关键词:数据挖掘;信息安全;监督控制
中图分类号:TP393. 08文献标识码:A文章编号: 1007-9599 (2012) 17-0000-02
1数据挖掘与网络信息安全
数据挖掘技术最早产生于上世纪80年代,当时主要作 用在于从大量的魔术随机数据中,提取人们事先不清楚但又 有潜在利用价值的信息。之后随着计算机技术的不断发展与 成熟,以网络应用为基础的数据挖掘技术开始出现并大范围 扩展开来。这里网络数据挖掘技术主要是以计算机网络为基 础,利用数据挖掘相关技术,自动对数据进行抽取的过程, 从影响数据的相关因素入手分析用户所需要的深层信息。通 常网络数据挖掘主要包括网络结构挖掘、内容挖掘、使用挖 掘等几方面。
在计算机网络系统中,会有很多包含信息安全的数据被 隐藏于文本文件或者音频、视频等文件中。而网络数据挖掘 技术恰好可以针对数据的这类特点对数据进行分析与整理, 发现数据之间的关系及数据本身所存在的某些特征,进而对 信息安全进行有效监督与控制。
2以数据挖掘技术为基础的信息安全监督与控制框架 基本原理
随着现代化计算机技术的不断发展与进步,社会逐步进 入网络化和信息化的时代,网络时代信息的有效收集、提取、 存储与分析等势必也会与网络产生千丝万缕的联系,而数据 挖掘技术可以及时有效的发现信息本身的特征及不同信息 系统之间的关系,进而追踪信息发展,以实现对信息的监督 与控制的目的。
现阶段,网络信息的安全性受到很大的威胁,而保证网 络信息安全的监督与控制手段主要集中在多种工具的综合 利用上,通过多元化的收集工具对信息进行收集,并在此基 础上采用一定的计算机算法对数据进行综合处理,之后将信 息进行归类,提取需要的信息。这一信息收集处理过程与数 据挖掘技术结合,使得整个过程分为数据的采集、预处理、 挖掘、结果四部分,程序变得相对简单。但如果与互联网相 连接,则会衍生出多种技术的综合使用,比如针对某一特定 网站或者数据库的搜索等。通过网络数据挖掘技术与信息处 理分析与归类技术对互联网所收集的信息与数据进行整理 存储,在以某种特定算法对数据进行分析,之后找出数据的 基本特征和数据之间的某种关系,从而为相关方面的决策提 供建议。
随着数据挖掘技术的不断发展,目前在包括银行、保险、 零售等行业在内的多种行业领域都成功使用了数据挖掘技 术,有效实现了对信息的监督与控制。
3以网络数据挖掘技术为基础的信息安全监督控制框 架构建
3.1数据获取。数据的获取主要是对包括图片、文本、 视频、音频等在内的多种数据形式进行信息的收集,数据来 源主要包括网站、博客、论坛等,而数据的获取途径主要由 垂直搜索、人工方式、网络爬虫等几种。
首先,垂直搜索。垂直搜索主要是针对一些泄密率相对 较高的网站(比如政府部门网站、电子政务网站及国家军事 部门网站等)所设计出来的监督控制方式,垂直搜索更多的 是对网站的数据与信息进行一定结构与形式的抽取,将抽取 出来的信息设计成特定的结构,从而方便数据的挖掘。另外 在对信息进行收集的过程中,也可以设定词语控制表,对数 据进行筛选与过滤,从而提高数据获取的准确性,提高数据 获取的效率。
其次,网络爬虫。网络爬虫主要是一种计算机程序,以 一定的算法将整个Web网页进行链接,形成特定的网络。互 联网也正是通过多种超级链接的方式将不同层次与内容的 信息联系起来,形成一种信息网络。网络爬虫信息获取方式 有时需要对特定的信息进行收集,因此就不需要将所有网络 进行分析与浏览,而只需要建立一个搜索词语的控制表,对 需要检索的信息进行IP地址或者URL地址的限制,则可自 动删除部分不需要的项目,从而提高信息检索的效率。
再次,人工方式。上述垂直搜索与网络爬虫搜索两种数
据收集方式,均是以计算机程序为基础所形成的网络自动查 找方式,这种方式由于有计算机系统的参与,因此信息收集 的速度快,信息量大,但其准确性却不可同日而语,尤其是 针对一些相对隐蔽的信息来讲。因此在对数据进行收集的过 程中,还需要加入人工采集的方法,有针对性的采集需要的 信息,提髙数据采集的准确性。
3.2数据预处理。以计算机和互联网为基础所收集的信 息具有量大、复杂等特点,如果对这些数据进行直接使用, 会在很大程度上降低系统本身的准确性,因此需要对这些数 据进行预处理,比如数据的清洗、集成、变换、消减等。
首先,数据的清洗主要是填补遗漏的数据、除去明显错
误的数据等,保证数据来源的
文档评论(0)