多元统计分析第5章(判别分析)详解.ppt

下载文档 降价啦

12
0
约1.34万字
约 153页
2016-09-16 发布于湖北
举报
版权申诉
保障服务

多元统计分析第5章(判别分析)详解.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

最小距离法可以没有分布的假设。 Pool=yes时，线性判别的输出结果检验已选入的变量不同类的均值之间区分是否显著。最小距离法可以没有分布的假设。见假设检验课件的129页。T方分布转化成F分布。在两个总体的协方差矩阵相等的假设下，如果没有这个假设结果又是什么？SAS输出的结果，你也可以不用。回判的结果概括。例子见后面的作业。用网络格式太宽，不好处理。组内的，即在计算离差平方和时，用组内的离差平方和。概括三种判别准则。观测到某个总体的距离。符号介绍拒绝两组的均值相等问题：第2典型变量的选取思想解释的不充分。两组典型变量的组内协方差为0，表示信息不重复. 因为B的秩小于等于k-1.两组典型变量的组内协方差为0，这些典型变量之间是不相关的.请同学证明：利用矩阵的知识证明B的秩小于等于k-1。我的证明在ppt的说明中。 F是A的减函数。证明以后补上由认知心理学知道学生大概应该有哪几种类型，判别某个学生属于哪一类型，以便进行补救(有针对性的辅导，特别在计算机自适应考试中)。用一维的情况来直观感觉判别规则的合理性。解释用均值的加权平均的合理性，方差小的类权大。用一维的情况来直观感觉判别规则的合理性。要与后面的bayes判别比较. 假设为正态分布时的示意图。总错判概率最小。在假设总体服从正态分布时的结果. 在假设总体服从正态分布时的结果.两个中的均值越大，方差越小，则误判概率小。提问：为什么两个总体的协差阵相等，要这样估计？估计的误差更小，信息利用更充分。问题：如果协差阵相等，能用欧式距离替代马氏距离吗？X是一维是是等价的，二维及以上是不等价的，应用体现了自变量之间的相关关系。跟类有关的量只有后面一项。后面的内容为了帮助理解判别分析的思想，增加一点直觉感受。 Yi（x）加约束a为单位向量不如现在这个约束方便。只要对a加一个约束即可。同时还要使特征根尽量大。判别效率与两个总体的均值区分是否显著有关,两个总体的均值离得越远，判别效率越高。组间的，即在计算离差平方和时，用组间的离差平方和。尽量解释含义。 SLENTRY=p----缺省为0.15，小于该值的变量被引入. SLSTAY=p----缺省为0.15，大于该值的变量被剔除. 典型相关系数的平方除以1减去典型相关系数的平方。这部分的理论推导见PPT的说明。先对数据一起标准化，即减总均值除以总方差，然后求典型相关变量。先对数据标准化，每组观测减去该组的均值除以该组的标准差，然后求典型相关变量。这是我们要的，但数据一般都先中心化，直接减总总均值。对数据中心化不影响典型相关。一个医学院博士研究的问题，她咨询我问题。 2010年6月18日新浪网上的一篇报道。买东西便宜让顾客上当，第2次交易要求使用电话银行。一名女士开着手机让犯罪嫌疑人听她的电话转帐过程，训练样本是电话银行前面的一套固定按键，犯罪嫌疑人仅用了10多分钟就破译了银行卡账号和密码。具体报道见判别分析案例2 训练样本包括0－9这10个数， SAS中仅有一种判别方法——后验概率最大为什么要进行典型判别？有利于画图；使的分母尽量不是0； (检验各组的均值是否相等的统计量). 小结典型判别过程仅起到把多个分析变量降维的作用；最后需要把典型变量作为新的分析变量利用距离判别法或Bayes判别法进行判别. §5.5 逐步判别与STEPDISC过程一、逐步判别的基本思想：逐步判别的基本思想和逐步回归的基本思想是类似的，逐个引入变量，每次把一个判别能力最强的变量引入判别式，每引入一个新变量，对判别式中的老变量逐个进行检验，如其判别能力因新变量的引入而变得不显著，应把它从判别式中剔除. 这种通过逐步筛选变量使得建立的判别函数中仅保留判别能力显著的变量的方法，就是逐步判别法. 为什么要进行逐步判别？节约费用（如医学检查，指标越少越好）；使的分母尽量不是0； (检验各组的均值是否相等的统计量) 减少计算量，提高计算精度；提高判别函数的稳定性. 二、逐步判别的理论若我们已知前r个变量对k个总体的区分有显著作用，并怀疑另m－r个变量对k个总体的区分不能提供附加信息（即它们提供的信息被包含在前r个变量提供的信息之中）. 附加信息检验令使用的统计量为注：在正态分布的假设下. 特别有由wilks分布的性质知：当F太大时，则认为xm的附加判别能力显著，拒绝H0，可以添加xm. 三、逐步判别的步骤第二步：按附加信息检验的思想添加第二变量，依次类推，到不能选入变量也不能剔除变量为止. P179—例6.5.1 proc stepdisc da