logo

您所在位置网站首页 > 海量文档  > 教学课件 > 大学课件

数据挖掘2014要点解析.ppt 291页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
数据挖掘 南京理工大学计算机学院 徐建 dolphin.xu@ 参考教材 数据挖掘-概念与技术(原书第三版) (加) Jiawei Han Micheline Kamber (著) 范明 等(译) 机械工业出版社 第一章 引论 1、为什么进行数据挖掘 网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化 网络之后的下一个技术热点 网络时代面临的信息问题: 信息过量,难以消化; 信息真假难以辨识; 信息安全难以保证; 信息形式不一致,难以统一处理。 “要学会抛弃信息” 数据爆炸但知识贫乏 数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节,P,Z,E 全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。 许多组织机构的IT系统中都收集了大量的数据 支持数据挖掘技术的基础 激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由: 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录; 强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构; 海量数据搜索,对巨大量数据的快速访问; 数据挖掘算法。 从商业数据到商业信息的进化 2、数据挖掘的基本概念和定义 数据、信息和知识 数据:体温 37.5 信息: 姓名:陈浩男?? 年龄:4岁 ?性别:male??? 地址:广东省广州市天河区 时间:2014年6月8日13点20分?? 腋下体温:37.5摄氏度 自述:孩子在楼下玩,回来后看到小脸特别红,测量体温为37.5度 知识: “正常小儿的基础体温为36.9℃~37.5℃。一般当体温超过基础体温1℃以上时,可认为发热。其中,低热是指体温波动于38℃左右,高热时体温在39℃以上。 基础体温是指的直肠温度,一般口腔温度较其低0.3℃~0.5℃,腋下温度又较口腔温度低0.3℃~0.5℃。 基本概念 数据:是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。 信息:具有时效性的有一定含义的,有逻辑的、经过加工处理的、对决策有价值的数据流。 知识: 是对信息加工提炼所获得的抽象化产物。 是人们实践经验的结晶且为新的实践所证实的; 是关于事物运动的状态和状态变化的规律; 知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。 数据挖掘定义 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕 数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕 数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 实施数据挖掘的目的 不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。 数据挖掘与其他科学的关系 数据挖掘与传统数据分析方法区别 数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; 传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证 数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 3、挖掘何种类型的数据 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和遗产(legacy)数据库 文本数据库和万维网(WWW) 空间数据库 空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。 常见的空间数据库数据类型 地理信息系统(GIS) 遥感图像数据 医学图像数据 数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556