网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘入门 part1 简介.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的常用方法 * 中国数据科学教研网 * 描述性统计分析方法 分类技术 ※ 聚类技术 ※ 预测技术 关联规则 ※ 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 中国数据科学教研网 首都经济贸易大学 统计学院 宋 捷 中国数据科学教研网 数据挖掘入门 主要内容 数据挖掘是什么 数据挖掘的对象 数据挖掘的功能 数据挖掘的一般步骤 数据挖掘常用的方法 * * 中国数据科学教研网 数据挖掘出现的背景 计算机存储能力的提高 各种大容量存储介质的出现,硬盘,光盘等 数据仓库的出现 * 中国数据科学教研网 * * 中国数据科学教研网 * 数据挖掘(Data Mining)是什么? 回答:对数据进行挖掘 挖掘包括整理,处理,分析 数据挖掘又被称为: 资料采矿 数据考古 数据捕捞 … 为什么被称为挖掘 只有挖金矿,挖铁矿才叫挖掘 金矿,铁矿都是埋在地下很难发现的东西 而数据挖掘是要找寻在复杂的数据背后隐 藏的东西,而不是那些显而易见的结论 * 中国数据科学教研网 * * 中国数据科学教研网 * 不对数据进行任何的假设 数据量非常大,甚至以GB为单位 数据结构很复杂 数据关系不能预见 数据挖掘与数据分析的区别 数据来源 * 中国数据科学教研网 * 调查数据 公司、企业数据 金融数据 零售业销售数据 网站数据 图片 声音 报纸 DNA序列数据 等 数据构成形式 * 中国数据科学教研网 * 数据库 数据仓库 电子表格 数据存储形式 txt, csv, xls, xlsx, dbf等 数据挖掘的功能 * 中国数据科学教研网 * 描述 比如:周期性顾客,偶然性顾客; 高消费顾客,低消费顾客; 等 关联分析 比如:购买啤酒的顾客同时购买了尿布 分类与 预测 比如:顾客下个月是购买还是不购买 某只股票明天是涨还是跌 * 中国数据科学教研网 * * 中国数据科学教研网 * 聚类 比如:城市内顾客居住的位置 动植物种群的划分 孤立点分析 比如:某个月电话费花了1000块 信用卡欺诈 演变分析 比如:股票市场价格的未来走势 * 中国数据科学教研网 * 数据挖掘工具 R Statistica Climentine SAS DM Weka SQL Server 等 各种软件都有自己的优缺点 数据挖掘的一般步骤 确定要解决的问题 数据准备 ※ 对数据进行描述性统计分析 通过不通数据挖掘方法建模 ※ 择优选择模型 写出分析报告 * 中国数据科学教研网 * 数据准备 常见的数据类型: 数据挖掘过程的基本对象是数据样本,每个样本都用几个特征来描述,每个特征有不同的类型的值。 数值型:其值有顺序关系和距离关系 如:年龄,身高,温度,体重等 分类型:其值没有大小关系 一般属性变量,如:性别,是或否 有次序的属性变量,如:满意度 周期型属性变量,如:星期,月份 * 中国数据科学教研网 * Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa * 中国数据科学教研网 * R对该数据的变量描述如下: str(iris) data.frame: 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 $ Species : Factor w/ 3 levels setosa,versicolor,..: 1 1 Iris数据 * 中国数据科学教研网 * Statistica对iris数据的

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档