数据挖掘与处理(Data-Mining and Data Processing)演示课件-精选.pptVIP

  • 6
  • 0
  • 约9.57千字
  • 约 66页
  • 2020-01-12 发布于湖北
  • 举报

数据挖掘与处理(Data-Mining and Data Processing)演示课件-精选.ppt

(g)数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。 (h)模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。 (i)知识评价:将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。 * 2 数据挖掘 2.2数据挖掘的定义 (1)数据挖掘:通过分析每个数据,从大量数据中寻找其规律的技术。 注:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 注:(a)数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识; (b)发现的知识要可接受、可理解、可运用; (c)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 * 2 数据挖掘 (2)商业角度的定义 定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 理解:数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 * 2 数据挖掘 (3)数据挖掘与传统分析方法的区别 注:(a)数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识. (b)数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。 (c)先前未知的信息是指该信息是预先未曾预料到的,数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 案例:南京的房价与离婚率是同步的。 * 2 数据挖掘 传统数据分析工具(DSS/EIS) 数据挖掘工具 工具特点 回顾型的、验证型的 预测型的、发现型的 分析重点 已经发生了什么 预测未来的情况、解释发生的原因 分析目的 从最近的销售文件中列出最大客户 锁定未来的可能客户,以减少未来的销售成本 数据集大小 数据维、维中属性数、维中数据均是少量的 数据维、维中属性数、维中数据均是庞大的 启动方式 企业管理人员、系统分析员、管理顾问启动与控制 数据与系统启动,少量的人员指导 技术状况 成熟 统计分析工具已成熟,其他工具正在发展中 * 2 数据挖掘 (4)数据挖掘和数据仓库 (a)数据挖掘不必非得建立一个数据仓库(DW,Data Warehouse) ,数据仓库不是必需的。 (b)基于数据仓库的数据挖掘。 * 2 数据挖掘 (5)数据挖掘和在线分析处理(OLAP) 注:(a)OLAP(OnLine Analytic Processing)基于假设,然后用OLAP检索数据库来验证这个假设是否正确。 例:一个分析师想找到导致贷款拖欠的原因,他可能先假定:低收入的人信用度也低,然后用OLAP来验证他这个假设。若该假设没被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。 缺点:如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。 * 2 数据挖掘 (b)DM不基于假设,数据挖掘与OLAP不同的地方:数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。 例:一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。 (c)二者关系:数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,验证一下的行动的影响,那么OLAP工具能回答你的这些问题。知识发现的早期阶段,OLAP工具有利于探索数据,重要的变量,发现异常数据和互相影响的变量。加快知识发现的过程。 * 2 数据挖掘 (6)三个步骤:数据准备、规律寻找和规律表示。 注:(a)数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集; (b)规律寻找:用某种方法将数据集所含的规律找出来; (c)规律表示:尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。 * 2 数据挖掘 数据挖掘过程模型 注:ETL(Extraction-Transformation-Loading):数据提取、转换和加载 | 数据准备 | 规律寻

文档评论(0)

1亿VIP精品文档

相关文档