项目3数据规约.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
项目3数据规约

项目3 数据规约 3.1 实验目的 (1)理解维归约、案例归约与值技术归约(即数据压缩)的区别; (2)理解数据挖掘过程的预处理阶段中数据归约的优点; (3)重点掌握利用主成分分析方法对数据进行维归约,理解特征构成和特征选择的基本原则; (4)重点掌握案例归约技术,学会不同情况进行数据归约处理。 3.2 实验原理 在海量数据上进行复杂的数据分析和挖掘将需要很长的时间,使得这种分析不现实或不可行。虽然大型数据集有得到更佳挖掘结果的潜力,但并不能保证就一定能获得比小型数据集好的挖掘结果。假如是多维数据,一个主要问题是,在所有维度中搜寻所有挖掘方案之前,是否可以确定这种方法在已归约数据集的挖掘和发现中发挥得淋漓尽致。更一般得是,从一个可用特征得子集或案例得到一个通解,并且即使搜索空间扩大是也将会保持不变。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍接近于保持原数据的完整性。这样,在规约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。 数据规约的策略包括:数据立方体聚集、属性子集选择、维度规约、数值规约、离散化和概念分层产生。这里简单介绍维度归约、案例归约与值技术归约。离散化和概念分层产生将在第5章进行介绍。 3.2.1 维规约 用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。 维规约通过删除不相关的属性(或维)减少数据量。通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。在压缩的属性集上挖掘还有其它的优点。它减少了出现在发现模式上的属性的数目,使得模式更易于理解。对于属性子集选择,通常使用压缩空间的启发式算法。通常,这些算法是贪心算法,在搜索属性空间时,总是做看上去是最佳的选择。它们的策略是做局部最优选择,期望由此导致全局最优解。在实践中,这种贪心算法是有效的,并可以逼近最优解。 “最好的”(或“最差的”)属性使用统计意义的测试来选择。这种测试假定属性是相互独立的。也可以使用一些其它属性估计度量,如使用信息增益度量建立分类判定树。 属性子集选择的基本启发式方法包括以下技术: (1)逐步向前选择:该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每一次迭代,将原属性集剩下的属性中最好的属性添加到该集合中。 (2)逐步向后删除:该过程由整个属性集开始,在每一步,删除掉尚在属性集中的最坏属性。 (3)向前选择和向后删除的结合:向前选择和向后删除方法可以结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。 方法(1)到(3)的结束条件可以有多种。过程可以使用一个阀值来确定是否停止属性选择过程。 (4)判定树归纳:判定树算法最初是用于分类的。该方法构造一个类似于流程图的结构,其每个内部(非树叶)节点表示一个属性上的测试,每个分支对应于测试的一个输出;每个外部(树叶)节点表示一个判定类。在每个节点,算法选择“最好”的属性,将数据分成类。当它用于属性子集选择时,树由给定的数据构造。不出现在树中的所有属性假定是不相关的。出现在树中的属性形成规约后的属性子集。 维度规约使用数据编码或变换,以便得到原数据的规约或“压缩”表示。有一些很好的压缩算法,尽管它们通常是无损的,但是只允许有限的数据操作。这里介绍两种流行、有效的有损的维度规约方法:小波变换和主成分分析。 离散小波变换(DWT)是一种线性信号处理技术,当用于数据向量X时,将它变换成小波系数向量X’。当这种技术用于数据规约时,每个元组看作一个n维数据向量,即X=,描述n个属性在元组上的n个测量值。小波变换后的数据可以截短,仅存放一小部分最强的小波系数,就能保留近似的压缩数据。给定一组系数,使用所用的DWT的逆,可以构造出原数据的近似。该技术也能用于消除噪声,而不会光滑掉数据的主要特征,使得它们也能有效地用于数据清理。小波变换用于多维数据,可以按以下方法做:首先将变换用于第一个维,然后第二个,如此下去。计算复杂性关于数据立方体中单元的个数是线性的。 主成分分析(PCA)搜索个最能代表数据的n维正交向量,其中。这样,原来的数据投影到一个小得多的空间,导致维度规约。不象属性子集选择通过保留属性集的一个子集来减少属性集的大小,PCA通过创建一个替换的、更小的变量集“组合”属性的基本要素。原数据可以投影到该较小的集合中。PCA常常揭示先前未曾察觉的联系,并因此允许解释不寻常的结果。PCA计算开销地,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。主成分可以作为多元回归和聚类分析的输入。与小波变换相比,PCA能够更好地处理稀疏数据,而小波变换更适合于高维数据。 3.2.2 案例规约 抽样可以作为一种数据规约技术使用,因为它允许

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档