探析数据挖掘(DataMining)和统计学的联系.docVIP

探析数据挖掘(DataMining)和统计学的联系.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
探析数据挖掘(DataMining)和统计学的联系.doc

  探析数据挖掘(DataMining)和统计学的联系 数据挖掘( Data Mining )和统计学:有什么联系? J.H.Friedman 斯坦佛大学统计系及线性加速中心 摘要:DM(数据挖掘)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释,并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这可能要求统计学家们改变他们的一些基本思路及操作原则。 1 序言 声明: 该文中的观点仅代表作者本人的观点,并不一定反映编辑,主办者,斯坦佛大学及同行的观点。 第二十九次论坛(on the Interface) (May 1997,Houston,TX)的主题是数据挖掘和大数据集的分析。这次会议的主题和二十年前的一次由Leo Breiman组织,ASA 和IMS赞助的关于大量复杂数据分析的会议是一致的。二十年后,探讨一下二十年来的所作所为是极其恰当的。这篇文章将讨论如下问题: 什么是数据挖掘? 什么是统计? 它们之间的联系是什么(如果有的话)? 统计学家能作什么?(可能的话) Should : relational Data Miner 关系数据矿工 AngossSofts,Inc.: Clementine `克莱门小柑橘` DataMind Corporation: DataMind Data Cruncher Silicon Graphics: MineSet California Scientific Softaker iner 除了这些`综合`软件包外,还有许多专门用途的产品。另外,许多专业于数据挖掘的咨询公司也成立了。在这个领域,统计学家和计算机科学家的不同在于当统计学家有一个想法时,他(她)将它写成文章,而计算机科学家者开一家公司。 当前数据挖掘产品的特点有: --迷人的图形用户界面 .数据库(查寻语言) .一套数据分析过程 --窗口形式的界面 .灵活方便的输入 --点击式按键和说 --输入对话框 --利用图表分析 --复杂的图形输出 --大量数据图 --灵活的图形解释 树,网络,飞行模拟 -- 结果方便的处理。 这些软件包对决策者来说就象数据挖掘专家。 在当前的数据挖掘软件包中被用到的统计分析过程包括: .决策树推断(C4.5,CART,CHAID) .规则推断(AQ,2,RECON,etc) .最近邻方法(合乎情理的方案) .聚类方法(数据分离) .联合规则(市场篮子分析) .特征提取 .可视化 另外,有些还包括: .神经网络 .bayesian belief 网络(图形模型) .遗传算法 .自组织图 .神经模糊系统 几乎所有包都不包括: .假设检验 .实验设计 .响应表面模型 .ANOVA,MANOVA,etc. .线性回归 .判别分析 .对数回归 .广义线性模型 .正则相关性 .主成分分析 .因子分析 后面的这些过程是标准统计包里的主要部分。因此,当前被市场化的数据挖掘包中的大部分方法在统计学科之外产生和发展。统计学核心的方法已被忽略。 3 arts)   决策支持系统为在线分析过程(OLAP)和关系在线分析过程设计。关系在线分析过程为`多维分析`设计。关系在线分析过程数据库通过维组织,维即属性(变量)的逻辑类。数据体可以看成是高维偶然事件表。关系在线分析过程支持如下类型的查询:   显示春季运动服部门总的销售量,及California大城市商业街中商店数和小城市中商店进行比较,显示所有利润边界值为负的项   如果关系在线分析过程的查寻由使用者手工进行,使用者提出潜在的相关问题;得到结果需要附加的查寻,其答案可能暗示进一步的问题。这样的分析过程一直到不再有感兴趣的问题提出,或者到分析员精疲力尽或耗完时间。如果用关系在线分析过程进行数据挖掘,那它需要一个经验丰富的使用者,他能不睡且不老,使用者必须不断地重复提出见闻广博的问题。   数据挖掘也可以用数据挖掘系统(软件)进行,它只需要使用者提供模糊的指令,就能自动搜索相应的模式,并显示重要的项,预测,或反常记录。   利润边界值为负的项有什么特征?   如果决定开发某项产品的市场-预测它的利润边界值   寻找那些其利润边界值可以准确预测的项的特征   不是所有的大的数据库都是商业化的,比方说科学和工程

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档