《语料库文体统计学方法与应用》_附录二.docx

《语料库文体统计学方法与应用》_附录二.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE

PAGE291

PAGE

PAGE292

附录二:文体统计分析方法操作指南

本附录为与《语料库文体统计学方法与应用》一书配套的统计分析方法操作指南,详细介绍了本书第三章至第七章各研究案例所采用的判别分析、对应分析、聚类分析、主成分分析、方差分析、因子分析、非参数检验、贝叶斯统计、神经网络等统计分析方法的SPSS操作步骤,采用了文体分析的实际案例和数据,并对分析结果进行了解读。读者可利用本指南学习使用统计分析软件的具体操作方法。为方便使用,各种统计方法的编号和书中“统计方法解析”部分所在的章节编号对应。

判别分析

假设我们已知三位作者各自的作品,现存在一些有争议作品,需要判定是由这三位作者中的哪一位所作。我们以最常用10个功能词为统计自变量,对待判作品进行判别分析。用SPSS的分析步骤如下。

录入或整理数据

首先选取三位作家作品各10个样本(A1-10,B1-10,C1-10),为方便检验判别准确性,我们从每个作家作品中再抽取两个样本作为待判样本,即存疑作品(待判a1、a2、b1、b2、c1、c2)。每个样本8,000词,统计其中的10个常用功能词词频。对样本A1-10的“分组”变量赋值“1”,B1-10分组赋值“2”,C1-10分组赋值“3”。将数据导入SPSS,如图1.1所示。

在判别分析中,输入型变量必须是数值型的,而输出变量必须是分类型的。输入变量在各组间的均值必须有统计显著性差异,组间方差越大越好。

图1.1判别分析作家数据录入

判别分析选项设定

使用判别分析前必须进行各项设定,选择分类变量及其范围,指定判别分析的自变量,选择分析方法。首先,依次点击【分析】1→【分类】→

【判别】按钮,打开判别分析功能(图1.2)。

1)选择判别分析的变量

打开判别分析设定主选项框(图1.3)。首先,将分类型的输出变量

“分组”拖入『分组变量』框。其次,将其余10个数值型变量拖入『自变量』框。SPSS提供了“一起输入自变量”和“使用步进式方法”两种方法(即采用全模型法或逐步选择法建立判别函数),可根据需求,决定让所有输入变量一起参与或步进式筛选建立判别函数,默认为“一起输入自变量”。

1附录中的符号含义如下:【】表示按钮,『』表示选项框,“”表示选项内容。

图1.2SPSS判别分析功能

图1.3判别分析设定主选项框

点击『定义范围』按钮设定分类变量的数值范围。本例中,共有三个分类组别所以最小值为1,最大值为3,点击【继续】。

2)选择输出统计量

在判别分析设定主选项框中(图1.3),点击【统计量】按钮,打开统计量输出设置对话框。可以复选三种统计量(图1.4)。

图1.4判别分析统计量选项框

在『描述性』选项框中,“均值”选项,可选择输出各类中各自变量的均值、标准差和各自变量总样本的均值和标准差。“单变量ANOVA”选项,可选择对各类中同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。“Box’sM”选项,选择对各类的协方差矩阵相等的假设进行检验。

『函数系数』选项框中,选择判别函数系数的输出形式。“Fisher(F)”选项,选择可直接用于对新样本进行判别分类的费希尔系数。对每一类给出一组系数,并给出该组中判别分数最大的观测量。“未标准化”选项,选择未经标准化处理的判别系数(也称典则判别)。

『矩阵』选项框中,选择自变量的系数矩阵。“组内相关”根据在计算相关矩阵之前将各组协方差矩阵平均后计算类内相关矩阵。“组内协方差”

计算并显示合并类内协方差矩阵,是将各协方差矩阵平均后计算的,区别于总协方差阵。“分组协方差”对每类输出显示一个协方差矩阵。最后,“总体协方差”计算并显示总样本的协方差矩阵。选择完毕后,点击【继续】,回到判别分析设定主选项框。

3)指定分类参数和判别结果

在判别分析设定主选项框中(图1.3),点击【分类】,打开分类方法选项框(图1.5)。

图1.5判别分析分类设定选项

在『先验概率』栏中,选择使用的先验概率。系统默认“所有组相等”,也可以选择“根据组大小计算”,即先验概率与样本量成正比。

在『使用协方差矩阵』栏中,选择使用组内还是分组协方差矩阵。在『输出』栏中选择对判别分析的效果进行验证的结果。其中,“个

案结果”用于列表输出所有案例的判别情况,“摘要表”给出当前样本判别效果汇总表,“不考虑该个案时的分类”框用于给出交互验证的判别验证结果。

最后在『图』选项框中,可以设置输出的是合并图、分组图或区域图。选择完毕后,点击【继续】,回到判别分析设定主选项框。

4)指定生成并保存在数据文件中的新变量

在判别分析设定主选项框中(图1.3),

文档评论(0)

Glory + 关注
实名认证
内容提供者

网文天下

1亿VIP精品文档

相关文档