- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
选样– 聚类/分层选样 Raw Data Cluster/Stratified Sample random sampling without replacement --〉 random sampling with replacement (bootstrap sampling) Cluster sampling Stratified sampling 数据的预处理 为什么要进行预处理 数据清理:60%的工作量 数据集成 数据变换 数据归约 数据离散化 离散化 三种类型的属性值 名称型– 无序集合中的值 序数– 有序集合中的值 连续值 离散化 将连续属性的范围划分为区间 有效的归约数据 基于判定树的分类挖掘 离散化的数值用于进一步分析 离散化和概念分层 离散化 通过将属性域划分为区间,减少给定连续数值的个数。区间的标号可以代替实际的数据值。 概念分层 通过使用高层的概念(青年、中年、老年)来代替底层的属性值(实际的年龄)来归约数据 数据数值的离散化和概念分层生成 分箱(Binning) 分箱技术递归的用于结果划分,可以产生概念分层 Top-down split, unsupervised, 直方图分析 直方图分析方法递归用于每一部分,可以自动的产生多级概念分层 Top-down split, unsupervised 聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个簇,形成子节点 Either top-down split or bottom-up merge, unsupervised 基于熵的离散化 supervised, top-down split 通过自然划分分段 top-down split, unsupervised Entropy-Based Discretization Given a set of samples S, if S is partitioned into two intervals S1 and S2 using boundary T, the information gain I(S,T) after partitioning is The boundary that maximizes the information gain over all possible boundaries is selected as a binary discretization. The process is recursively applied to partitions obtained until some stopping criterion is met, e.g., Experiments show that it may reduce data size and improve classification accuracy 通过自然划分分段 将数值区域划分为相对一致的,已于阅读的、看上去更直观或自然的区间 聚类分析产生概念分层可能会将一个工资区间划分为[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000, 60000] 自然划分的3-4-5规则 划分步骤 如一个区间最高有效位上包含3,6,7,或9个不同的值,将该区间划分为三个等宽的子区间(7-2,3,2) 如一个区间最高有效位上包含2,4,或8个不同的值,就分为4个等宽子区间 如包含1,5,或10,就划分为5个等宽区间 将该规则递归应用于每个子区间,产生给定数值属性的概念分层 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现结果扭曲,可在顶层分段时,选用一个大部分的概率空间.e.g., 5%-95% 属性级的规格 根据在给定属性集中,每个属性所包含的不同值的个数,可以自动的生成概念分层;不同值的个数最多的属性将被放在概念分层的最底层 country province_or_ state city street 15 distinct values 365 distinct values 3567 distinct values 674,339 distinct values Summary * Data preparation or preprocessing is a big issue for both data warehousing and data mining Descriptive data summarization is need for quality data preprocessing Data preparation includes Data c
文档评论(0)