- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS Clementine 以PMML的格式提供与预测模型系统的接口 第四代数据挖掘系统 第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、普适(ubiquitous)计算设备产生的各种类型的数据 。 第四代数据挖掘系统 特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普适(ubiquitous)计算设备产生的各种类型的数据 第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。 第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预测模型的使用和在操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导 谢谢大家! 2 数据挖掘 2.2数据挖掘的定义 (1)数据挖掘:通过分析每个数据,从大量数据中寻找其规律的技术。 注:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 注:(a)数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识; (b)发现的知识要可接受、可理解、可运用; (c)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 2 数据挖掘 (2)商业角度的定义 定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 理解:数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 2 数据挖掘 (3)数据挖掘与传统分析方法的区别 注:(a)数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识. (b)数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。 (c)先前未知的信息是指该信息是预先未曾预料到的,数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 案例:南京的房价与离婚率是同步的。 2 数据挖掘 传统数据分析工具(DSS/EIS) 数据挖掘工具 工具特点 回顾型的、验证型的 预测型的、发现型的 分析重点 已经发生了什么 预测未来的情况、解释发生的原因 分析目的 从最近的销售文件中列出最大客户 锁定未来的可能客户,以减少未来的销售成本 数据集大小 数据维、维中属性数、维中数据均是少量的 数据维、维中属性数、维中数据均是庞大的 启动方式 企业管理人员、系统分析员、管理顾问启动与控制 数据与系统启动,少量的人员指导 技术状况 成熟 统计分析工具已成熟,其他工具正在发展中 2 数据挖掘 (4)数据挖掘和数据仓库 (a)数据挖掘不必非得建立一个数据仓库(DW,Data Warehouse) ,数据仓库不是必需的。 (b)基于数据仓库的数据挖掘。 2 数据挖掘 (5)数据挖掘和在线分析处理(OLAP) 注:(a)OLAP(OnLine Analytic Processing)基于假设,然后用OLAP检索数据库来验证这个假设是否正确。 例:一个分析师想找到导致贷款拖欠的原因,他可能先假定:低收入的人信用度也低,然后用OLAP来验证他这个假设。若该假设没被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。 缺点:如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。 2 数据挖掘 (b)DM不基于假设,数据挖掘与OLAP不同的地方:数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。 例:一个用数据挖掘工具的分析
您可能关注的文档
最近下载
- 河南省青桐鸣2024-2025学年高二上学期11月期中化学试卷.docx VIP
- 住院费用清单模板.doc VIP
- 大学学术英语视听说教程下册(第2版)Miriam_Espeseth习题答案.pdf
- 浙江省嘉兴八校联盟2024-2025学年高一上学期期中联考物理试卷(含答案).pdf VIP
- 颈动脉灌注机制.pptx VIP
- 浙江省嘉兴八校联盟2024-2025学年高一上学期期中考试 化学试题(含答案).pdf VIP
- Unit 4 Friends Lesson3 课件 人教精通版英语三年级上册.ppt
- 锅炉原理课件:第七章 锅炉设备的通风计算.ppt VIP
- 生涯发展展示-(第一版).pptx VIP
- 《选品与采购》课件——4.电商采购.pptx VIP
原创力文档


文档评论(0)