浙江大学王灿《数据挖掘》课程_数据预处理详解.ppt

下载文档 降价啦

56
0
约 63页
2016-10-24 发布于湖北
举报
版权申诉
保障服务

浙江大学王灿《数据挖掘》课程_数据预处理详解.ppt

1、本文档共63页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

属性集的规格根据在给定属性集中，每个属性所包含的不同值的个数，可以自动的生成概念分成；不同值个数最多的属性将被放在概念分层的最底层。 country province city street 5个不同值 65 个不同值 3567 个不同值 674,339 个不同值没有高质量的数据，就没有高质量的挖掘结果 * 四分位数给出数据分布的中心、离散和形状的某种指示 * * 数据挖掘的实践中，使用离散化进行数据规约主要是适用于以下三类属性值…，连续值（比如实数），如果不使用离散化进行表示，其个数将是无穷无尽的。怎么离散化？…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上（比如一个判定条件为：400?，0－1000的整数将在比较1000次后得出结果，但是如果先将这1000个值划分为10个区间：0-100,100-200…900-1000，则只要比较10次就可以得出结果） * 现在来看看离散化的定义以及一种我们在前面已经提到过的离散化技术——概念分层… 概念分层后，数据的细节丢失了，但是概化后的数据更有意义，更容易解释，而且所需的存储空间更少。有效的减少I/O支出 * 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中，我们发现很多分层蕴涵在数据库的模式中，因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼，产生概念分层。数值属性的概念分层可以根据数值分布分析自动的构造，我们主要考察5中方法：分箱、递归的：比如将10,000个值，每个箱子中放10个，则可以将其规约为1000个值；如果要求将这10,000个值规约为10个概念，则只要将上述分箱方法递归的使用3次就可以了。 * 这个示例的图比较小，不知大家是否能看清楚，如果看不清楚，则请参阅书上第59页的图，只是那个图上数字的位数非常多，现在这个示例为了简单化，省略了一些数字位。参阅书第59页的步骤。 * 在这里有个概念首先要弄清楚：属性的序。属性的序代表的是属性间的一个包含关系，说明它们在概念分层上层次的高低，比如有这么个序： streetcityprovincecountry，就说明了他们在概念分层上… 数据仓库中的location可能定义了如下属性street，city，province，country和一个全序说明：streetcityprovincecountry，则我们可以根据这个信息通过概念分层进行信息汇总。直接指定一部分数据在概念分层上的序关系：比如{杭州，宁波，温州} ∈浙江，来指定概念分层。（数据多的时候这个方法就不行了）过会我们将给出一个例子，看系统如何自动生成属性的序。用户只说明部分属性集的情况可能是常常发生的，比如上面那个例子： street，city，province，country；用户可能只说明city和province两个属性（他可能是粗心，或是对属性毫无概念）；在这种情况下，概念分层就有赖于相关属性值（street，province）的恢复。要做到这一点，可以在定义数据库模式时将这4个属性捆绑在一起。 * 好，现在我们来看看刚才提到的那个系统根据某种算法自动产生属性的序，系统往往可以根据数据的内在联系而产生一些自动算法来生成概念分层。比如我们知道这么一个事实，在一个有序的属性集中，越底层的属性集将有越多的不同值跟它相对应，而越高层的属性值将有越少的不同值跟它相对应。因为底层属性的值要通过汇总才可以生成高层属性的值，而汇总就意味着不同值个数的减少。因此… 聚类通过聚类分析检测离群点，消除噪声聚类将类似的值聚成簇。直观的，落在簇集合之外的值被视为离群点回归 x y y = x + 1 X1 Y1 Y1’ 数据清理做为一个过程 (1) 第一步：偏差检测使用元数据（e.g. 每个属性的域、数值类型、依赖性、分布等）检查字段过载检查唯一性规则、连续性规则、空值规则使用偏差检查工具数据清理工具：使用简单的领域知识（e.g.邮编、拼写检查）检查并纠正数据中的错误数据审计工具：通过分析数据发现规则和联系及检测违反这些条件的数据来发现偏差数据清理做为一个过程 (2) 第二步：数据变换（纠正偏差）数据迁移工具：允许说明简单的变换 ETL（提取/变换/装入）工具：允许用户通过GUI说明变换偏差检测和数据变换（纠偏）的迭代执行强调交互性的清理方法第二章数据预处理为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成数据集成数据集成：将多个数据源中的数据整合到一个一致的存储中模式集成：整合不同数据源中的元数据 e.g. A.cust_id = B.customer_no 实体识别问题：匹配来自不同数据源的现实世界的实体 e.g. Bill C