- 1、本文档共63页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术原书第2版第2章数据预处理
为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成 三种类型的属性值: 名称型:无序集合中的值;e.g. 颜色、职业 序数:有序集合中的值; e.g. 军衔、职称 连续值;e.g. 实数 离散化 将连续属性的范围划分为区间 有些分类算法只接受离散属性值 通过离散化有效的规约数据 离散化的数值用于进一步分析 离散化 通过将属性域划分为区间,减少给定连续属性值的个数 区间的标号可以代替实际的数据值 离散化可以在一个属性上递归的进行 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 典型方法(所有方法均可递归应用) 分箱(binning) 分箱技术递归的用于结果划分,可以产生概念分层 直方图分析(histogram) 直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层 聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点 基于熵的离散化 通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95% (-$4000 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000 Low=-$1,000 High=$2,000 第二步 第四步 第一步 -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max count (-$1,000 - $2,000) (-$1,000 - 0) (0 -$ 1,000) 第三步 ($1,000 - $2,000) 分类数据是指无序的离散数据,它有有限个值(可能很多个)。 分类数据的概念分层生成方法: 由用户或专家在模式级显式的说明属性的部分序。 通过显示数据分组说明分层结构的一部分。 说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。 对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。 根据在给定属性集中,每个属性所包含的不同值的个数,可以自动的生成概念分成;不同值个数最多的属性将被放在概念分层的最底层。 country province city street 5个不同值 65 个不同值 3567 个不同值 674,339 个不同值 没有高质量的数据,就没有高质量的挖掘结果 * 四分位数给出数据分布的中心、离散和形状的某种指示 * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部
您可能关注的文档
最近下载
- 团知识竞赛试题及答案.docx VIP
- 湖南工程学院《大学物理》2023-2024学年第一学期期末试卷.doc VIP
- 小学社团活动——啦啦操18节课时教案.docx
- 在线网课学习课堂《工程伦理》单元测试考核答案.docx
- 2024年山东省《辅警招聘考试必刷500题》考试题库附完整答案【全优】.pdf VIP
- T_CECS 992-2022CN 预应力压接装配混凝土框架应用技术规程.docx
- 【课件】第1课+美术作品的创作+课件-高中美术人教版(2019)美术鉴赏.pptx VIP
- 网络交易案件办理专题培训课件.pptx
- 《接发列车工作 》课件(下).pptx VIP
- 粤版_通用技术2_技术与设计2__教案.doc VIP
文档评论(0)