2.第二章_数据准备(统计学专业)_-_副本.ppt

下载文档 降价啦

11
0
约1.77万字
约 114页
2017-02-26 发布于湖北
举报
版权申诉
保障服务

2.第二章_数据准备(统计学专业)_-_副本.ppt

1、本文档共114页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2.第二章_数据准备(统计学专业)_-_副本

* 1、主成分分析（因子分析）主成分分析和因子分析都是多元统计分析中的一种常用方法，是数学上处理降维的一种方法。主成分分析的基本思想：设法将原始属性重新组合成一组新的互相无关的几个综合属性，同时根据需要从中选取少数几个综合属性来尽可能多地反映原来指标的信息。综合指标的选取使用的是方差最大法。 * * 2、因子分析因子分析的基本思想：通过变量（或样本）的相关系数矩阵内部结构的研究，找出能控制所有变量的少数几个因子去描述多个变量之间的相关关系；然后，根据相关性的大小把变量分组，使得同组内的变量之间相关性较高，但不同组之间相关性较低。 * * * 主成分分析和因子分析的对比 * 主成分分析因子分析由因子的线性组合来解释变量 * 主成份分析和因子分析的优点因子（主成份）之间的线性相关关系不显著。主成份参与数据建模能够有效地解决变量多重共线性等分析应用带来的问题。因子能够反映原有变量的绝大部分信息。因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。该值越高，说明相应因子的重要性越高。 aij因子载荷反映了某i个变量在第j因子上的相对重要性。因子得分是因子分析的最终体现。在后续的分析中可以用因子变量代替原有变量进行建模，或者利用因子变量对样本分类、评价或排序等研究。 * * 3、聚类分析——K均值聚类分析 K均值法是麦奎因（MacQueen，1967）提出的，这种算法的基本思想是将每一个样品分配给最近中心（均值）的类中. 具体的算法至少包括以下三个步骤： 1．将所有的样品分成K个初始类； 2．通过欧氏距离将某个样品划入离中心最近的类中，并对获得样品与失去样品的类，重新计算中心坐标； 3．重复步骤2，直到所有的样品都不能再分配时为止。 * * * （二）属性子集的选择属性子集的选择是通过删除不相关的属性来减少数据量。属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性的原分布。 * * * 属性子集的选择方法一般有两个组成部分：一是高效率的属性子集搜索策略，即在允许的时间内，用以找出最小的、最能描述类别的属性组合的搜索方法；二是确定评价函数，是衡量属性组合是否最优的标准。属性子集的选择一般分两步进行：首先，产生属性子集；然后，对子集进行评价，如果满足停止条件则停止，否则重复前述两步直到条件满足为止。 * * 通过该标准，要能够衡量哪组属性子集的分类效果最好，即使得数据类的概率分布尽可能地接近使用所有属性的原分布；或者能够衡量哪组属性子集的分类效果最好，即最能够代表全部的属性集合对样本的划分。 * 1、搜索策略按照搜索属性形成属性子集的方式，搜索策略可以分为：穷举法、启发式和随机搜索。启发式搜索即贪心算法。基本的启发式属性选择算法主要有：逐步向前选择（SFS）、逐步向后选择（SBG ）以及向前选择和向后删除相结合的方法等。 * * * （1）逐步向前选择逐步向前选择方法是一种自下而上的搜索方法，它是由空属性集开始，依次从未入选的属性中选择一个属性，使它与已入选的属性组合在一起时所得的评价函数达到最大值（或最小值，依评价函数选取的不同，取最大或最小值），直到评价函数的值不再增加（或减小）时为止，亦或者达到指定的属性数为止。 * * * 能够衡量哪组属性子集的分类效果最好，最能够代表全部的属性集合对样本的划分。这种算法的不足是：在算法中虽然考虑了所选属性与已入选属性之间的相关性，但却未考虑未入选属性之间的统计相关性，并且一旦某个属性已入选，即使由于后加入的属性使它变为多余，也无法再剔除。 * * * （2）逐步向后删除逐步向后删除是一种自上而下搜索的方法，它由整个属性集开始，在每一步删除掉在属性集中最坏的属性，评判属性好坏的准则是，如果剔除该属性后，属性集的评价函数达到最大（或最小）值，那么这个属性是最坏的。 * * * （3）逐步向前选择和逐步向后删除相结合向前选择和向后删除结合的方法则是将向前选择和向后删除方法结合在一起，每一步选择一个最好的属性，并在其剩余的属性中删除掉一个最坏的属性。这两种方法也存在着与逐步向前选择方法相同的缺点。 * * * （4）广义逐步向前选择广义逐步向前选择方法是逐步向前选择方法的推广，针对逐步向前选择方法“未能考虑未入选属性之间的统计相关性”的缺点，该方法每次从未入选的属性中挑选的不止是一个属性而是多个属性。广义逐步向前选择方法的缺点是：计算量要比逐步向前选择方法大很多，并且也未解决“一旦某个属性已入选，即使由于后加入的属性使它变为多余，也无法再剔除”的问题。 * * * * 2、属性子集选择中的评价函数在属性子集选择中，找出最具代表性的属性子集需要一个子集优劣的评价标准。通过该标准，使得数据类的