- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与统计学关系讨论
数据挖掘与统计学关系讨论
摘要:数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术。相反,数据挖掘是统计分析方法的扩展和延伸。
关键词:数据挖掘、统计学、比较研究、关系研究
中图分类号: V221+.1 文献标识码: A 文章编号:
引言
随着科学技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识。这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现——KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是KDD中的一个最为关键的环节。
二、数据挖掘简介
1、数据挖掘的含义和功能
数据挖掘—DM(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。
一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。
作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘所采用的技术涉及到:数据库、人工智能、统计学、可视化、并行计算等不同学科和领域。
数据挖掘的关键步骤与技术实现
1、挖掘
把潜在的不明确数据关系的数据提取并转化为数学问题。这一步的结果只是表明数据之间有关系,但是具体是什么关系仍然不明确。
2、建模
把不明确的数据关系通过数学建模过程转化为明显的数据关系,即把数据之间的内在变化规律由数学符号与数学结构表示出来。
3、数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
(1)数据的抽取
就是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。
(2)数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。
(3)数据的展现
主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。
四、统计学的含义
统计学最初是作为一门实质性科学建立起来的,它从数量上研究某类具体的现象(如社会经济发展)的规律,但是,随着统计学研究范围的不断扩大以及统计方法在社会领域和自然领域内的有效应用,加之统计方法体系本身的不断发展和完善,使得统计学的研究对象也发生了变化。统计学已从实质性科学中分离出来,转而研究统计方法,成为一门方法论的科学。即统计学是研究如何搜集数据、整理数据和分析数据的一门方法论科学。
从本质上看,统计工作的核心就是数据(或者信息)的采集、分析和处理,即“统计:收集、分析、表述和解释数据”。
五、统计学的作用
统计学是一门综合性较强的学科,其往往涉及到企业多个方面的信息。从原材料、设备、生产、包装、出售等多个环节都有统计学的工作 。统计部门摄取的信息基本上囊括了企业全部的发展资料,因而在企业决策中的参考价值极大。
1、了解经营状况。
在企业日常经营中,统计学能够对所有信息进行实时跟踪记录,每个阶段时期的资料都会收集在内。领导者只需调出统计部门的资料,就可以掌握当前的企业经营状况,了解企业在某一个时期的具体动态,如:机构、人员、资产、负债等状况。
文档评论(0)