- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘(三)数据归约
第三章 数据归约 本章目标 明确基于特征、案例维归约与值归约的区别。 解释数据挖掘过程的预处理阶段中进行数据归约的优点。 应用相应的统计方法,理解特征选择和特征构成的基本原则。 对数据描述,特征的挑选、归约或转换可能是决定挖掘方案质量的最重要的问题。除了影响到数据挖掘算法的属性,它也能决定问题量否可解,或所得到的挖掘模型有多强大。 为什么要数据归约: 1.一旦特征数量达到数百,而只有上百条样本用于分析时,对挖掘是相对不够的。 2.由高维度引起的数据超负,使一些挖掘算法不适用。 3.1 大型数据集的维度 预处理数据集的三个主要维度:列(特征),行(案例或样本)和特征的值。它们以平面文件的形式出现。 数据归约过程3个基本操作:删除列、删除行、减少列中值的数量(平整特征)。 例如:用分箱方法减少值的数量,用特征合并代替原来特征(身体素质指标代替人的身高和体重特征) 数据归约的约定是不要降低结果的质量。 在数据归约操作时的目标过程: 1.计算时间:较简单的数据,也即经过数据归约后的结果,可减少挖掘所消耗的时间。 2.预测/描述精度:多数挖掘模型的主要度量标准,它估量了数据归纳和慨括为模型的好坏。 3.数据挖掘模型的描述:简单的描述通常来自数据归约,意味着模型能得到更好的理解。 理想的情况是维归约后既能减少时间,又能同时提高精度和简化描述。 数据归约算法的特征: 1.可测性:已归约的数据集可精确确定近似结果的质量。 2.可识别性:挖掘前能执行归约算法时能确定近似结果的质量。 3.单调性:算法是可迭代的,结果的质量是时间和输入数据质量的一个非递减的函数。 4.一致性:结果的质量与时间和输入数据质量有关。 5.收益递增:方案在迭代早期可获得大的改进,但随时间递减。 6.中断性:算法可在任何时刻停止并给出答案。 7.优先权:算法可以暂停并以最小的开销新开始。 3.2 特征归约 在进行数据归约时不但要处理干扰数据和污染数据,而且要处理不相关、相关、冗余数据。为了提高效率,通常单独处理相关特征,只选择与挖掘应用相关的数据,以达到用最小的测量和处理量获得最好的性能。特征归约的目标: 更少的数据,以便挖掘算法能更快的学习。 更高的挖掘处理精度,以便更好地从数据中归纳出模型。 简单的挖掘处理结果,以便理解和使用起来更加容易。 更少的特征,以便在下一次数据收集中,通过去除冗余或不相关特征做到节俭。 特征归约的目标与任务: 1.特征选择-基于应用领域的知识和挖掘的目标,选择初始数据集中特征的一个子集。 2.特征构成-有一些数据的转换对挖掘方法的结果有惊人影响,因此特征构成是一个比特殊的挖掘技术更有决定性因素。特征构成依赖于应用的知识,交叉学科知识的应用有利于数据准备的改进。 特征选择方法: 1.特征排列算法:特征等级列表是根据特有的评估测量标准进行排序的。测量标准基于可用数据的精度、一致性、信息内容、样本之间的距离和特征之间的最终统计相关性。它仅指出特征间的相关性,不提供子集。 2.最小子集算法:返回一个最小特征子集,子集中的特征之间没有等级区别。子集中的特征与挖掘过程相关,其余的则是不相关的。 在特征选择过程中需要建立特征评估方案来确定等级排列或特征子集选择,这一点很重要。 例如,若一个数据集有3个特征{A1,A2,A3}, 特征出现或不出现取值0,1,共有23个归约的特征子集, {0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1}, {1,1,0},{1,1,1} 特征选择的任务是搜索空间中的每一种状态都指定可能特征的一个子集。此问题n=3,空间较小,但大多数挖掘应用,n20,搜索起点和搜索策略相当重要,常常用试探搜索代替穷举搜索。 特征子集选择的两种方法 1.自底向上方法:从空集开始,然后从初始特征集选择最相关的特征来写入此集。这种方法采用一种基于一些试探式的特征评估标准。 2.自顶向下方法:从原始特征的的完整集合开始,然后根据所选的试探式评估尺度一个一个挑选出不相关的特征,并将其去除。 一种可行的特征选择技术是基于均值和方差的比较。它适用于特征的分布是未知的情况,实际情况也不知道特征的分布,如果假设分布是正态,利用统计学可获得好的结果。这种技术仅是一种试探式的、不严密的数学建模工具。 如果一个特征描述了不同种类的实体,用特征的方差对特征的均值进行标准化,进行不同类之间的比较。如果均值偏离很远,此特征具有分别两样本的能力,否则该特征的意义不大。 基于均值和方差的检验公式 设A和B是两个不同类特征的值的集合,n1和n2是相应的样本数。 上式基于这样一种假设,已知特征独立于其他特征。主要用于分类问题。 例题:下表是一组数据集,有两个输入特征X和Y,C是把样本分成两类的附加特征。假设
文档评论(0)