数据挖掘2014要点解析.ppt

  1. 1、本文档共291页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 南京理工大学计算机学院 徐建 dolphin.xu@ 参考教材 数据挖掘-概念与技术(原书第三版) (加) Jiawei Han Micheline Kamber (著) 范明 等(译) 机械工业出版社 第一章 引论 1、为什么进行数据挖掘 网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化 网络之后的下一个技术热点 网络时代面临的信息问题: 信息过量,难以消化; 信息真假难以辨识; 信息安全难以保证; 信息形式不一致,难以统一处理。 “要学会抛弃信息” 数据爆炸但知识贫乏 数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节,P,Z,E 全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。 许多组织机构的IT系统中都收集了大量的数据 支持数据挖掘技术的基础 激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由: 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录; 强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构; 海量数据搜索,对巨大量数据的快速访问; 数据挖掘算法。 从商业数据到商业信息的进化 2、数据挖掘的基本概念和定义 数据、信息和知识 数据:体温 37.5 信息: 姓名:陈浩男?? 年龄:4岁 ?性别:male??? 地址:广东省广州市天河区 时间:2014年6月8日13点20分?? 腋下体温:37.5摄氏度 自述:孩子在楼下玩,回来后看到小脸特别红,测量体温为37.5度 知识: “正常小儿的基础体温为36.9℃~37.5℃。一般当体温超过基础体温1℃以上时,可认为发热。其中,低热是指体温波动于38℃左右,高热时体温在39℃以上。 基础体温是指的直肠温度,一般口腔温度较其低0.3℃~0.5℃,腋下温度又较口腔温度低0.3℃~0.5℃。 基本概念 数据:是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。 信息:具有时效性的有一定含义的,有逻辑的、经过加工处理的、对决策有价值的数据流。 知识: 是对信息加工提炼所获得的抽象化产物。 是人们实践经验的结晶且为新的实践所证实的; 是关于事物运动的状态和状态变化的规律; 知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。 数据挖掘定义 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕 数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕 数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 实施数据挖掘的目的 不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。 数据挖掘与其他科学的关系 数据挖掘与传统数据分析方法区别 数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; 传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证 数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 3、挖掘何种类型的数据 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和遗产(legacy)数据库 文本数据库和万维网(WWW) 空间数据库 空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。 常见的空间数据库数据类型 地理信息系统(GIS) 遥感图像数据 医学图像数据 数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档