- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
两翼自动旋转门设计
1、相关定义
1.1、序列模式的概念
5.1.1 节中讨论的对类似于购物篮商品的数据的挖掘,都只强调同时出现的关 系,而忽略了数据中的序列关系,然而同种安全工具和不同安全工具上报的安全 事件都具有固有的序列特征,这意味着在它们之间存在着基于时间的先后次序, 这种先后次序对于表述现实的攻击具有重要的意义,不能忽略。在序列数据集中, 每一行都记录着与一个特定的对象相关联的一些事件在给定时刻的出现[43]。如表 5.3 所示,每一个源目 IP 对 表示一个对象,每一个数字编号表示一 个事件,第一行就包含在时间戳 t = 10 时出现的与对象 A 有关的事件集。将所有 与对象 A 有关的事件按时间戳增序排序,就得到 A 的一个序列(sequence):{3,2,5}, {1,6},{4};直观的解释就是相应于对象 A,先发生了 3,2,5 号事件,接着发生了 1,6 号事件,最后发生了 4 号事件。 国防科学技术大学研究生院硕士学位论文 第 43 页 序列是元素的有序列表,可以记作 s = ,其中每个 ei是一个事件 的集合,即 ei ={i1,i2,, ik}。如表 5.3 中对象 A 的序列可表示为:s(A) = ,该序列有三个元素,分别是 e1= {3,2,5},e2={1,6},e3={4}。一个序 列可以用它的长度和出现的事件个数来描述。出现在序列中的元素的个数称作序 列的长度,如上述 s(A)包含了 3 个元素,它的长度为 3。如果一个序列包含了 k 个 事件,那么可称它为 k-序列,如上述 s(A)就为 6-序列。这里需要指出序列与 5.1.1 节中项集的不同:1)一个项在项集中最多出现一次,但一个事件可以在序列中出现 多次。如给定两个项 i1和 i2,只能产生一个候选 2-项集{i1,i2},但却可以产生许多 候选 2-序列,如,,等;2)次序在序列中是重要的, 但在项集中不重要。例如,{i1,i2}和{i2,i1}表示同一个项集,而和 对应于不同的序列,因此必须分别产生。 表 5.3 序列数据表示例 对象( ) 事件 时间戳 A 3,2,5 10 A 1,6 15 A 4 17 B 2,3 12 B 5,4 14 C 6,5,1,2 19 C 3 21 序列 t 是另一个序列 s 的子序列(subsequence),当且仅当 t 中每个有序元素都 是 s 中一个有序元素的子集。形式化表述为,序列 t= 是序列 s= 的子序列,当且仅当存在整数1? j1 ? j2 ? ... j m ? n ,使得 t1? sj1, t 2 ? s j2 ,..., t m ? s jm 。 如果 t 是 s 的子序列,则称 t 包含在 s 中。 数据序列(data sequence)是指与单个数据对象相关联的事件的有序列表。例如, 表 5.3 显示的数据集包含三个数据序列,对象 A,B 和 C 各一个。 序列的支持度是包含 s 的数据序列所占的比例,例如表 5.3 中的支持 度为 66.7%。如果序列 s 的支持度大于或等于用户指定的阈值 minsup,则称 s 是一 个序列模式。 设 D 是包含一个或多个数据序列的数据集。序列模式挖掘的任务就是从 D 中 找出所有支持度大于或等于 minsup 的所有序列。 国防科学技术大学研究生院硕士学位论文 第 44 页
1.2、基本概念
5.1.1 数据挖掘中关联规则的形式化定义5.1.1 数据挖掘中关联规则的形式化定义 关联分析最初应用于电子商务,目的是从大量的购物数据中分析出令人感兴 趣的关系,例如最经典的案例,在美国购买尿布的顾客往往会购买啤酒,用关联 规则表示就是:{尿布}→{啤酒}。这类数据有一个明显的特征,就是可以用二元形 式来表示,如啤酒出现在购物篮中就用 1 表示,否则用 0 表示,表 5.1 描述了典型 的二元形式的购物篮数据。 表 5.1 二元形式的购物篮数据 id 可乐 牛奶 啤酒 面包 1 0 1 0 1 2 1 0 1 1 3 0 1 1 0 4 1 1 0 0 而在网络安全领域,数据的属性要复杂的多,表 5.2 中给出了网络安全事件的 典型字段。对于一个安全事件来说,仅仅用 0,1 来表示它的发生与否是远远不够 的,事件中的源目 IP,源目端口,发生时间,事件本身的信息等都是需要考量的 重要因素。所以在对网络安全事件数据进行挖掘时,必须要做出相应的处理,但 是已有的关联分析的一些术语可以继续使用,本节将对数据挖掘中的一些基本概 念[43]进行阐述。 表 5.2 网络安全事件表 id plugin_id plugin
文档评论(0)