(对应分析.docVIP

下载本文档

22
0
约5.42千字
约 17页
2017-01-29 发布于北京
举报
版权申诉

(对应分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(对应分析

对应分析（Correspondence Analysis）在进行数据分析时，经常要研究两个定性变量（品质变量）之间的相关关系。我们曾经介绍过使用列联表和卡方检验来检验两个品质变量之间相关性的方法，但是该方法存在一定的局限性。卡方检验只能对两个变量之间是否存在相关性进行检验，而无法衡量两个品质型变量各水平之间的内在联系。例如，汽车按产品类型可以分豪华型、商务型、节能型、耐用型，按销售区域可分为华北区、华南区、华中区、华东区、西南区、西北区、东北区。利用卡方检验，只能检验销售地区与对型的偏好之间是否相关，但无法知道不同地区的消费者到底比较偏好哪种车型。对应分析方法（Correspondence Analysis）又称相应分析、关联分析，是一种多元相依变量统计分析技术，是对两个定性变量（因素）的多种水平之间的对应性进行研究，通过分析由定性变量构成的交互汇总数据来解释变量之间的内在联系。同时，使用这种分析技术还可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。特别是当分类变量的层级数比较大时，对应分析可以将列联表中众多的行和列的关系在低维的空间中表示出来。而且，变量划分的类别越多，这种方法的优势就越明显。对应分析以两变量的交叉列联表为研究对象，利用“降维”的方法，通过图形的方式，直观揭示变量不同类别之间的联系，特别适合于多分类定性变量的研究。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图上，将样品的大类及其属性在图上直观而又明了地表示出来，具有直观性。另外，它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程，可以从因子载荷图上对样品进行直观的分类，而且能够指示分类的主要参数（主因子）以及分类的依据，是一种直观、简单、方便的多元统计方法。该统计研究技术在市场细分、产品定位、品牌形象以及满意度研究等领域得到了广泛的运用。对应分析的关键问题是：第一，如何将多个类别点表示在低维空间中，以易于直观观察；第二，如何确定各类别点的坐标，以易于鉴别类别间联系的强弱。对应分析的基本步骤第一步，编制交叉列联表并计算概率矩阵P 编制两定性变量的交叉列联表，得到一个的矩阵，即：其中，为行变量的分类数，为列变量的分类数，且要求。将矩阵规格化为的概率矩阵，即：其中，，为各单元频数的总百分比。于是，矩阵表示了一组关于比例的相对数据。第二步，根据矩阵确定数据点坐标将P矩阵的行看成个样本，并将这个样本看成维空间中的个数据点，且各数据点的坐标定义为：其中，。此时，各个数据点的坐标是一个相对数据，它在各单元总百分比的基础上，将在行和列上的分布比例考虑了进来。于是，如果某两个数据点相距较近，则表明行变量的相应两个类别在列变量所有类别上的频数分布差异均不明显；反之，则差异明显。同理，将P矩阵的列看成个样本，并将这个样本看成维空间中的个数据点，且各数据点的坐标定义为：其中，。同理，各个数据点的坐标也是一个相对数据。于是，如果某两个数据点相距较近，则表明列变量的相应两个类别在行变量所有类别上的频数分布差异均不明显；反之，则差异明显。第三步，行变量和列变量的分类降维处理通过第二步能够将两变量的各个类别看作是多维空间上的点，并通过点与点间距离的测度分析类别间的联系。在变量的类别较多时，数据点所在空间维数必然较高。由于高维空间比较抽象，且高维空间中的数据点很难直观地表示出来，因此最直接的解决方法便是降维。对应分析采用类似因子分析的方式分别对行变量类别和列变量类别实施降维。具体做法是：对列变量实施分类的降维将矩阵的列看作个变量，计算个变量的协方差矩阵A。可以证明，第个变量与第个变量的协方差矩阵为：，其中：，并记为。从协方差矩阵A出发，计算协方差矩阵A的特征根，以及对应的特征向量。根据累计方差贡献率确定最终提取特征根的个数（通常取2），并计算出相应的因子载荷矩阵F，即：其中，因子载荷是列变量的某分类在某个因子上的载荷，反映了它们之间的相关关系。对行变量实施分类的降维将矩阵的行看作个变量，计算个变量的协方差矩阵B。可以证明，第个变量与第个变量的协方差矩阵为：，其中：，并记为。从协方差矩阵B出发，计算协方差矩阵B的特征根和特征向量。可以证明，协方差矩阵A和协方差矩阵B有相同的非零特征根。如果为矩阵A的相应特征根的特征向量，那么就是矩阵B的相应特征根的特征向量。根据累计方差贡献率确定最终提取特征根的个数（通常取2），并计算出相应的因子载荷矩阵G，即：其中，因子载荷是列变量的某分类在某个因子上的载荷，反映了它