个等宽的区间.PPTVIP

下载本文档

49
0
约6.29千字
约 56页
2018-03-29 发布于天津
举报
版权申诉

个等宽的区间.PPT

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

个等宽的区间

4.数值压缩：用较小的数据表示数据，或采用较短的数据单位，或者用数据模型代表数据。 5.离散化和概念分层生成：使连续的数据离散化，用确定的有限个区段值代替原始值；概念分层是指用较高层次的概念替换低层次的概念，以此来减少取值个数。 * 数据立方体聚集是数据的多维建模和表示，由维和事实组成。 * 数据立方体聚集如果挖掘感兴趣的是年度总销售量，而不关心每个省的销量，就可以对上面的立方体进行聚集，得到一个2维数据 * 年份 2000 3600 3568 6520 1568 2001 3124 4200 8162 1457 2002 3870 4968 11200 1460 2003 4089 5339 16587 1518 体育厨房家装文具维归约去掉不相关的属性，减少数据挖掘处理的数据量。属性子集选择的基本方法包括以下几种： 1.逐步向前选择该过程由空属性集作为归约集开始，确定原属性集中最好的属性，并将它添加到归约集中。在其后的每一次迭代步，将剩下的原属性集中最好的属性添加到该集合中。 2.逐步向后删除该过程由整个属性集开始。在每一步，删除尚在属性集中最差的属性。 * 维归约 3.向前选择和向后删除结合可以将逐步向前选择和向后删除方法结合在一起，每一步选择一个最好的属性，并在剩余属性中删除一个最差的属性。 4.判定树归纳决策树算法最初是用于分类的。决策树归纳构造一个类似于流程图的结构，其中每个内部(非树叶)节点表示一个属性的测试，每个分枝对应于测试的一个输出；每个外部(树叶)节点表示一个类预测。在每个节点，算法选择“最好”的属性，将数据划分成类。 * 维归约 4.判定树归纳当决策树归纳用于属性子集选择时，由给定的数据构造决策树。不出现在树中的所有属性假定是不相关的。出现在树中的属性形成归约后的属性子集。方法的结束标准可以不同。该过程可以使用一个度量阈值来决定何时停止属性选择过程。 * 规约后的属性集:｛A4 A1 A6｝维归约 5.基于统计分析的归约使用统计分析中的一些算法，如：主成分分析，逐步回归分析等。主成分分析(Principal Components Analysis，PCA)搜索k个最能代表数据的n维正交向量，其中k≤n。这样，原来的数据投影到一个小得多的空间，导致维度归约。PCA通过创建一个替换的、更小的变量集“组合”属性的基本要素。原数据可以投影到该较小的集合中。 * 数据压缩方法分为两类：无损压缩基于熵编码。有损压缩主成分分析法, 投影寻踪，小波变换。 * 数值归约常用的方法: 1.直方图 2.聚类 3.抽样：不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样 4.线性回归 5.非线性回归 * 离散化与概念分层生成数据离散化技术用少数区间标记替换连续属性的数值，从而减少和简化了原来的数据。可以对一个属性递归地进行离散化，产生属性值的分层或多分辨率划分，称作概念分层。概念分层(concept hierarchy)用于归约数据：用较高层的概念替换较低层的概念。 * 离散化与概念分层生成 1.数值数据的离散化与概念分层生成可以通过数据分析自动产生，这些方法包括前面介绍过的分箱、直方图、聚类，基于熵的离散化等。 * 第四章数据预处理何帆湖南理工学院 4.1 数据预处理概述 4.2 数据清洗 4.3 数据集成和变换 4.4 数据归约 * 为数据挖掘过程提供干净、准确、简洁的数据，提高数据挖掘效率和准确性，是数据挖掘中非常重要的环节。原始数据中存在的问题 1.不一致 2.重复 3.不完整 4.含噪声 5.维度高 6.数据不平衡 * 数据预处理的方法和功能 1.数据清洗去掉噪声和无关数据 2.数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中 3.数据变换转换成为适合数据挖掘的形式 4.数据归约主要方法包括：数据立方体聚集，维归约，数据压缩，数值归约，离散化和概念分层等 * 属性选择与处理 1.尽可能赋予属性名和属性值明确的含义实施预处理和挖掘的人一般不是操作人员，属性的名称和值的含义不明确，首先对名称和取值含义含糊的属性进行处理。 2.统一多数据源的属性值编码如：有的表用“男”和“女”作为性别的属性值，有的用“M” 和“F”，多个数据源合并时，需要统一。 3.去除唯一属性原始数据的唯一属性对数据挖掘一般是无用的，通常用来记录唯一性的标识。 * 属性选择与处理 4.去除重复