Clementine示例01-因子分析..docxVIP

下载本文档

75
0
约 8页
2017-01-09 发布于重庆
举报
版权申诉

Clementine示例01-因子分析..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Clementine示例01-因子分析.

1、因子分析(factor. str)研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性，一科成绩好的学生，往往其他各科成绩也比较好，从而推想是否存在某些潜在的共性因子，或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子，可减少变量的数目，还可检验变量间关系的假设。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的，但又无法直接测量到的隐性变量(latent variable, latent factor)。比如，如果要测量学生的学习积极性(motivation)，课堂中的积极参与，作业完成情况，以及课外阅读时间可以用来反应积极性。而学习成绩可以用期中，期末成绩来反应。在这里，学习积极性与学习成绩是无法直接用一个测度(比如一个问题)测准，它们必须用一组测度方法来测量，然后把测量结果结合起来，才能更准确地来把握。换句话说，这些变量无法直接测量。可以直接测量的可能只是它所反映的一个表征(manifest)，或者是它的一部分。在这里，表征与部分是两个不同的概念。表征是由这个隐性变量直接决定的。隐性变量是因，而表征是果，比如学习积极性是课堂参与程度(表征测度)的一个主要决定因素。那么如何从显性的变量中得到因子呢？因子分析的方法有两类。一类是探索性因子分析，另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系，而让数据“自己说话”。主成分分析是其中的典型方法。验证性因子分析假定因子与测度项的关系是部分知道的，即哪个测度项对应于哪个因子，虽然我们尚且不知道具体的系数。示例factor.str是对孩童的玩具使用情况的描述，它一共有76个字段。过多的字段不仅增添了分析的复杂性，而且字段之间还可能存在一定的相关性，于是我们无需使用全部字段来描述样本信息。下面我们将介绍用Clementine进行因子分析的步骤：Step一：读入数据数据源(Source)栏中的结点提供了读入数据的功能，由于玩具的信息存储为toy_train.sav，所以我们需要使用SPSS文件(SPSS File)结点来读入数据。双击SPSS文件(SPSS File)结点使之添加到数据流程区内，双击添加到数据流程区里的SPSS文件(SPSS File)结点，由此来设置该结点的属性。在属性设置时，单击导入文件(Import file)栏右侧的按钮，选择要加载到数据流中进行分析的文件，这里选择toy_train.sav。单击注解(Annotations)页，在名称(name)栏中选择定制(custom)选项并在其右侧的文本框中输入自定义的结点名称。这里我们按照原示例输入toy_train。Step二：设置字段属性进行因子分析时我们需要了解字段间的相关性，但并不是所有字段都需要进行相关性分析，比如“序号”字段，所以需要我们将要进行因子分析的字段挑选出来。字段选项(Field Ops)栏中的类型(Type)结点具有设置各字段数据类型、选择字段在机器学习中的的输入/输出属性等功能，我们利用该结点选择要进行因子分析的字段。首先，将类型(Type)结点加入到数据流中，双击该结点对其进行属性设置：由上图可看出数据文件中所有的字段名显示在了字段(Field)栏中，类型(Type)表示了每个字段的数据类型。我们不需要为每个字段设定数据类型，只需从Values栏中的下拉菜单中选择Read项，然后选择读取值(Read Value)键，软件将自动读入数据和数据类型；缺失(Missing)栏是在数据有缺失时选择是否用空(Blank)填充该字段；检查(Check)栏选择是否判断该字段数据的合理性；而方向(Direction) 栏在机器学习模型的建立中具有相当重要的作用，通过对它的设置我们可将字段设为输入/ 输出/输入且输出/非输入亦非输出四种类型。在这里我们将前19个字段的方向(Direction) 设置为无(none)，这表明在因子分析我们不将这前19个字段列入考虑，从第20个字段起我们将以后字段的方向(direction)设置为输入(In)，对这些字段进行因子分析。Step三：对数据行因子分析因子分析模型在建模(Modeling)栏中用主成分/因子分析(PCA/Factor)表示。在分析过程中模型需要有大于或等于两个的字段输入，上一步的Type结点中我们已经设置好了将作为模型输入的字段，这里我们将主成分/因子分析(PCA/Factor)结点连接在类型(Type)结点之后不修改它的属性，默认采用主成分分析方法。在建立好这条数据流后我们便可以将它执行。右键单击主成分/因子分析(PCA/Factor)结点，在弹出的菜单栏中选择执行(Execu