数据挖掘概念与专业技术————.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概念与专业技术————

通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 * * 协同计算与知识工程 自然划分的3-4-5规则 规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 例如区间:-10000—20000,该区间的最高有效位msd=10000,则该区间跨越了(20000-(-10000))/10000=3 个不同的值。 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95% * * 协同计算与知识工程 (-$400 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000 Low=-$1,000 High=$2,000 第二步 第四步 第一步 -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max count (-$1,000 - $2,000) (-$1,000 - 0) (0 -$ 1,000) 第三步 ($1,000 - $2,000) -$400, $5000 * * 协同计算与知识工程 分类数据的概念分层生成 分类数据是指无序的离散数据,它有有限个值(可能很多个)。 * * 协同计算与知识工程 分类数据的概念分层生成方法 由用户或专家在模式级显示地说明属性的偏序(或全序)可以很容易地定义概念分层。 如:关系数据库或数据仓库的维location可能包含如下属性组:street,city,province_or_state和country。可以在模式级说明这些属性的全序,如:streetcityprovince_or_statecountry,来定义分层。 * * 协同计算与知识工程 分类数据的概念分层生成方法 * * 协同计算与知识工程 内容提要 数据及数据类型 为什么要预处理数据? 描述数据的汇总(为数据预处理提供分析的基础) 数据清理 数据集成和变换 数据归约 相似度计算 * * 协同计算与知识工程 数据归约 为什么需要进行数据规约? 数据仓库中往往存有海量数据 在整个数据集上进行复杂的数据分析与挖掘需要很长的时间 数据归约 数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果 数据归约策略 数据立方体聚集 维归约 数据压缩 数值归约 * * 协同计算与知识工程 数据立方体聚集(例子) 例如你收集的数据是2002-2004年每个季度的销售数据,然而,你感兴趣的是年销售(每年的总和),而不是每个季度的总和,你可以对这种数据进行聚集,该聚集结果数据集小得多,并不丢失分析任务所需的信息。 * * 协同计算与知识工程 维度(数据特征的数目)归约 是指通过使用数据编码或变换,得到原始数据的归约或“压缩”表示。 目的:去除不相关和冗余的特征,降低时间空间复杂度,提高数据质量及

文档评论(0)

盼储储time + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档