数据挖掘 第3章:数据探索.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章:数据探索 1. 汇总统计 2. 可视化 3. 联机分析处理(OLAP)  目的:介绍数据探索的基本技术  要求:掌握常用的汇总统计;掌握典型的可视化 技术;理解基本的数据立方体操作  重点:常用的汇总统计及其适用范围;典型的可 视化技术及其使用场合;数据立方体的构造方法  难点:从可视化图表中分析有用信息 数据挖掘导论 主讲:杜剑峰dududjf@ 2012年7月2 日 1 引言:什么是数据探索? 为了更好理解数据的特性而进行的对数据的初步 探测过程  数据探索的核心动机 – 有助于选择合适的数据预处理和数据分析技术 – 可以利用人的能力对数据进行直观检查来发现模式  人们能够识别数据分析工具不能获取的模式  与探测性数据分析(Exploratory Data Analysis, EDA)领 域相关 – 由统计学家John Tukey创建 – Turkey定义的EDA强调可视化 – 区别:EDA中聚类分析和异常检测看作是探测性技术;数据挖掘 体系中,聚类分析和异常检测都是主要的描述任务 数据挖掘导论 主讲:杜剑峰dududjf@ 2012年7月2 日 2 鸢尾花数据集  在本章的课程中,经常提到鸢尾花数据集 – 可以从UCI 机器学习库中得到 /~mlearn/MLRepository.html – 由统计学家Douglas Fisher提供 – 三个花种(类标号)  Setosa Virginica Versicolour – 四个属性(非类标) 萼片宽度(厘米) 萼片长度(厘米) 花瓣宽度(厘米) Virginica. Robert H. Mohlenbrock. USDA NRCS. 1995. Northeast wetland flora: Field 花瓣长度(厘米) office guide to plant species. Northeast National Technical Center, Chester, PA. Courtesy of USDA NRCS Wetland Science Institute. 数据挖掘导论 主讲:杜剑峰dududjf@ 2012年7月2 日 3 鸢尾花数据集(weka 中的表示)  三个花种(类标号) – Setosa – Virginica – Versicolour  四个属性(非类标) – 萼片宽度(厘米) – 萼片长度(厘米) – 花瓣宽度(厘米) – 花瓣长度(厘米) 数据挖掘导论 主讲:杜剑峰dududjf@ 2012年7月2 日 4 第一部分:汇总统计 汇总统计是刻画数据特征的数值 – 汇总的特征包括频率、位置和散布等  例子: 位置– 均值(mean) 散布– 标准差(standard deviation ) – 大部分的汇总统计可以通过顺序访问一次数据计算得到 – 核心问题:  各种汇总统计适用于什么类型的属性?  各种汇总统计如何计算? 数据挖掘导论 主讲:杜剑峰dudu

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档