- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘
本贴来自《百岛论坛》J.H.Friedman斯坦佛大学统计系及线性加速中心
摘要:DM(数据挖掘)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释,并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这可能要求统计学家们改变他们的一些基本思路及操作原则。
1 序言
什么是数据挖掘? 什么是统计? 它们之间的联系是什么(如果有的话)? 统计学家能作什么?(可能的话) Should we want to?
2 什么是数据挖掘?
数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义:数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式的重要过程。--Fayyad.
数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。--Zekulin.
数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。--Ferruzza
数据挖掘是发现数据中有益模式的过程。--Jonn
数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。--Parsaye
数据挖掘是....决策树.神经网络.规则推断.最近邻方法.遗传算法--Mehta
虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。如同在过去的历次淘金热中一样,目标是`开发矿工`。利润最大的是卖工具给矿工,而不是干实际的开发。数据挖掘这个概念被用作一种装备来出售计算机硬件和软件。 硬件制造商强调数据挖掘需要高的计算能力。必须存储,快速读写非常大的数据库,并将密集的计算方法用于这些数据。这需要大容量的磁盘空间,快速的内置大量R AM的计算机。数据挖掘为这些硬件打开了新的市场。
软件提供者强调竞争优势。`你的对手使用它,你最好得跟上。`同时强调它将增加传统的数据库的价值。许多组织在处理存货,帐单,会计的数据库方面有大量的业务。这些数据库的创建和维护都耗资巨大。现在只需要将相对少的投资用于数据挖掘工具,就可以发现隐藏在这些数据中的具有极高利润的信息` 金块`。
目前硬件和软件供应者的目的是在市场还未饱和前通过迅速推出数据挖掘产品为数据挖掘作广告。如果一个公司为数据挖掘包投资了五万至十万美元,这也可能只是实验,人们在新产品未被证实比旧产品具有很大优势之前是不会贸然购买的。以下是一些当前的数据挖掘产品:IBM: `Intelligent Miner` 智能矿工Tandem: relational Data Miner 关系数据矿工AngossSoftware: KnowledgeSEEDER `知识搜索者`Thinking Machines Corporation: DarwinTM NeoVista Software: ASICISL Decision Systems,Inc.: Clementine `克莱门小柑橘` DataMind Corporation: DataMind Data Cruncher Silicon Graphics: MineSet California Scientific Software: BrainMaker WizSoft Corporation: WizWhy Lockheed Corporation: Recon SAS Corporation: SAS Enterprise Miner
除了这些`综合`软件包外,还有许多专门用途的产品。另外,许多专业于数据挖掘的咨询公司也成立了。在这个领域,统计学家和计算机科学家的不同在于当统计学家有一个想法时,他(她)将它写成文章,而计算机科学家者开一家公司。当前数据挖掘产品的特点有:--迷人的图形用户界面.数据库(查寻语言).一套数据分析过程--窗口形式的界面.灵活方便的输入--点击式按键和说?br --输入对话框--利用图表分析--复杂的图形输出--大量数据图--灵活的图形解释树,网络,飞行模拟-- 结果方便的处理。这些软件包对决策者来说就象数据挖掘专家。在当前的数
您可能关注的文档
- 3-53#-统计.xls
- 材料报表.xls
- 2011年物资称量统计报表.xls
- 成品库存日报表1.10.xls
- 复式条形统计2.doc
- 南方分公司2011年报表03月报表.xls
- 进销存日报表数据-2011_09_12-14_43_52.xls
- 中国农药制造业数据preticide2002.xls
- (上市日-2013年12月) 皖新传媒股票数据.xls
- 十月份隐患排查、治理报表.xls
- 2025年抚州幼儿师范高等专科学校单招语文测试模拟题库及答案1套.docx
- 2025年新疆喀什地区单招语文测试模拟题库往年题考.docx
- 2025年成都航空职业技术学院单招语文测试题库必考题.docx
- 2025年新疆阿克苏地区单招(语文)测试模拟题库带答案.docx
- 2025年新疆乌鲁木齐市行政职业能力测验模拟试题及答案一套.docx
- 2025年西藏林芝地区单招语文测试题库学生专用.docx
- 2025年辽源职业技术学院单招语文测试模拟题库及答案参考.docx
- 2025年辽宁医药职业学院单招(语文)测试模拟题库及参考答案.docx
- 2025年新疆和田地区单招语文测试模拟题库a4版.docx
- 2025年新疆天山职业技术大学单招(语文)测试模拟题库最新.docx
文档评论(0)