第8章为挖掘准备数据.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章为挖掘准备数据

b) 抽样方法: 用数据较小的随机样本表示大的数据集 简单随机抽样 无放回抽样 随着每个项被抽出,它被从构成总体的所有对象集中删除 有放回的抽样 对象被选中时不从总体中删除 分层抽样 特点 总体由不同类别的对象组成 每种类型的对象数量差别很大 先对数据集进行分组:数据集D被划分为互不相交的“层”,则可通过对每一层按一定比例简单随机选样得到D的分层抽样 利用聚类实现分层抽样:将数据集D划分成m个不相交的簇,再在聚类结果的簇上进行简单随机抽样 * 8.2.4 数据归约 (4) 作业:P157:8.2,8.3,8.4 */32 * 商务数据挖掘与应用案例分析 第8章 为数据挖掘准备数据 8.1 数据统计特征 8.2 数据预处理 */32 每个公司都会存在有类似于冗余数据、错误数据、失效数据以及编码错误数据的情况,只是可能存在于IT隐蔽处秘而不宣。这虽然不是新问题,但是现在这种数据混乱却在一些知名项目里变得更加突出,如在实施企业资源规划软件或供应链管理软件(SCM)时,一位工作于波士顿AMR研究机构的分析师约翰·哈格蒂(John Hagerty)指出:往往当公司把注意力集中在业务流程而非数据的形式和一致性上时,这种问题就出现了。当这种情况发生后,这个公司的IT部门就不得不重新从公司的各个数据库中净化、一致化以及集成化数据,然后再存入数据仓库。 壳牌勘探有限公司(Shell Exploration)正在吃这样的苦头。这家燃料公司希望整合其企业资源,规划财务数据和若干容量系统产生的数据,后者是处理该公司发现并开采了多少天然气和石油的计量信息系统。“每个不同的系统都有自己的一系列编码,”壳牌勘探有限公司位于苏格兰Aberdeen的数据仓库项目经理Steve Mutch解释说,“如果推翻重来,在这些系统里再重新净化和集成数据并非良策,可能会占用太多的时间,而且花费昂贵。”Mutch换了一种办法,他找到了Kalido公司的一个软件工具。在伦敦用这个工具从各个系统里分析和映射数据,然后把这些数据集成到数据仓库里。在经过了近7个月的数据分析和数据映射工作后,27个数据源被整合在了一个450GB的数据仓库中。 Steve Mutch说,其实合作的策略并不赖,每个子公司也不会因此而失去对自身数据的控制权。现在,他们更加理解了公司作为一个整体进行信息处理的意义。“一旦建立了这种概念,我们就感到了来自高层领导的压力,要求我们从其他一些应用中集成数据,”他说,“他们自己就可以看到现在能从数据仓库中得到什么信息,而且看到它的功能是多么强大。” 资料来源:Jame A.O’Brien. Introduction to Information System, 12th edition, Copyright@2005 by the McGraw Hill Companies, Inc. 开篇案例——壳牌勘探有限公司数据仓库的商业价值 8.1 数据统计特征 (1) 8.1.1 频数和众数 8.1.2 百分位数 8.1.3 中心度量 8.1.4 散布程度度量 8.1 数据统计特性 (2) * 数据统计又称为汇总统计,用单个数或数的小集合来捕获大的数据集的各种属性特征。通常需要数据的中心趋势和离散程度特征。 中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange); 而数据离散程度度量包括四分位数(quartiles)、四分位数极差(InterQuartiles Range, IQR)和方差(variance)等。 设一个在 上取值的分类属性x和m对象的取值,值 的频率定义为 众数是集合中出现频率最高的值。对分类属性来说,众数可以看成中心趋势度量;对于连续属性来说,众数通常没有意义。 8.1.1 频率和众数 8.1.2 百分位数 对于有序数据,有时考虑值集的百分位(percentile)更有意义。给定一个有序的或连续的属性x和0与100之间的数p,数据集合的第p个百分位数 一个x值,使得x的p%的观测值小于 。 最常用的百分位数是四分位数(quartile)。第一个四分位数记作Q1,是第25个百分位数 ;第三个四分位数记作Q3,是第75个百分位数 。第一个和第三个四分位数之间的距离是分布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为中间四分位数极差,定义为IQR= Q3- Q1 。 8.1.3 中心度量(1) 数据集 “中心”的最常用、最有效的数值度量是均值和中位数 。 设x1, x2,…, xm是m个值的集合,则该值集的均值和中位数分别定义为 : * 8.1.3 中心度量(2) 集合

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档