- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浅谈数据的统计分析及应用
浅谈数据的统计分析及应用
1、相关定义
1.1、数据挖掘的基本概念
数据挖掘 (Data Mining,简记DM),又称为数据采掘,数据开采等。一般认为数据挖 掘是数据库中知识发现(Knowledge Discovery in Database,简记 KDD)的一个环节,是 KDD中采用具体的数据挖掘算法从数据中自动高效地提取有用模式的最重要的步骤。然 5 而,在产业界、媒体和数据库研究界,”数据挖掘”比”数据库中知识发现”更流行, 由于DM的广泛使用,我们也对DM和KDD不作严格区分,而认为是等价的概念,在这种意义 下它们的定义是一致的。 从1989年到现在,数据挖掘的定义随着人们研究的不断深入也在不断完善,目前比较 公认的定义是Fayyad等给出的 [6] :KDD (DM)是从数据集中识别出有效的、新颖的、潜在 有用的并最终易于被人们理解的模式的非平凡处理过程。大规模数据集合是数据挖掘的 研究对象,被人们形象地描述为”知识的源泉”,它可以是结构化的,如关系数据库中 的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构 数据。数据挖掘技术是始于面向应用的,它是对特定的数据进行微观或宏观的统计、分 析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关系,甚至利用己有 的数据对未来的活动进行预测。这样,它就把人们对数据的应用,从低层次的末端查询 操作提高到为各级经营决策者提供决策支持。需要指出的是,这里所说的知识是相对的, 它应是在特定的前提和约束条件下,面向特定领域、有实际应用价值的,同时还要易于 被用户理解,甚至可以用自然语言表达和描述。
1.2、元数据的概念
元数据(Meta Data)最本质,最抽象的定义为:Data About Data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有 其具体的定义和应用。从广义上讲,元数据代表定义数据仓库的 任何对象,无论它是一个表、一个列、一个查询、一个业务规则, 或者是数据仓库内部的数据转移等等。简而言之,元数据是关于 数据、操纵数据的进程和应用程序的结构和意义的描述信息,其 主要目标是提供数据资源的全面指南[5]。 IEEE(The Institute of Electrical and Electronics Engineers,电 气和电子工程师委员会)的海量存储系统和技术委员会(Mass Storage Systems and Technology Committee, MSSTC)在1993年8 月召开的元数据研讨会上,提出了一个元数据的比较系统的定义: “元数据是关于存储的信息实体、存储的管理以及存储和实体的 使用信息。信息实体包括语义或信息内容、存储的结构映射、要 素的类型和编码、实体之间的关系、格式、结构和类型、相关的 数据、导出/派生信息;存储的管理包括定位、访问时间和访问方 法;存储和实体的使用包括限制、用法和历史记录。” 在数字图书馆中,元数据被定义为:提供关于信息资源或数 据的一种结构化的数据,是对信息资源的结构化的描述。其作用 为:描述信息资源或数据本身的特征和属性,规定数字化信息的 组织,具有定位、发现、证明、评估及选择等功能。 12
1.3、安全事件的概念及特点
3.1.1 安全事件的概念3.1.1 安全事件的概念 为了维护自身系统资源的运行状况,计算机系统一般都会有相应的事件日志,记录系 统日常事件或者误操作警报的事件信息。这些事件信息对于安全审计与管理非常有用。 所谓日志 (Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。每 个日志文件由事件记录组成,每条事件记录描述了一次单独的系统事件。通常情况下, 系统日志是用户可以直接阅读的文本文件,其中包含了一个时间戳和一个消息或者子系 统所特有的其他信息。日志文件为各种操作系统、服务器、防火墙、入侵检测系统、漏 洞扫描系统、反病毒等安全产品和一些应用软件记录必要的、有价值的信息,这对系统 监控、查询、报表、安全审计和管理是十分重要的。日志文件中记录的各种事件可提供 以下用途:监控系统资源,为打击计算机犯罪提供证据来源;对可疑行为进行告警,确定 入侵行为的范围;为恢复系统提供帮助,生成调查报告,审计用户行为等。
1.4、新增统计概念理解薄弱
相关关系、回归分析、最小二乘原理等内容知识,有些没教过的教师基本是空白, 教过一轮的教师程度稍好一些,许多教师在大学期间,学校基本没开设统计学这门课 程,有的学校虽然开设了,但也没有受到学校和教师本人足够的重视,留下来的内容 对于教师来说也所剩无几,但从教授高三的教师对新增内容的理解来看,对于新增的 统计内容,教师有能力理解和更好的掌握,只是要达到较理想的程度,还需要一个过 程,即通过教师一两轮
文档评论(0)