资料采矿中的统计预测与分类方法.docVIP

下载本文档

1
0
约3.46千字
约 5页
2015-09-15 发布于重庆
举报
版权申诉

资料采矿中的统计预测与分类方法.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

资料采矿中的统计预测与分类方法,采矿方法分类,地下采矿方法及其分类,采矿权延续资料,采矿学复习资料,统计其他采矿业,分类资料统计,香港买马预测资料,统计预测与决策,统计预测

资料采矿中的统计预测与分类方法(二) 肾上腺素的过度分泌症候群之分类黄立维郑顺林 ? 一、问题与一般方法：资料采矿是一个蛮当红的专题，但关于定义个人的说法不一，基本上是先给你一个大的资料集，然后下面的问题是从这里你可以得到什么，由于时代不一样了，现在资料的收集来的既多又便宜，多到没有人有时间去看的程度，因此比较中肯的资料采矿定义为我们如何从一个庞大的信息中，找寻我们所感到兴趣且有价值的知识，换言之，如何能快速且有效的从数据库中取得有用的讯息，并将其有效的反应，为我们当今的焦点。[ 谢邦昌 2001 ] ? 资料分类的方法在资料采矿中占极为重要的一项议题，在日常生活中，我们常遇到有些资料型态是属于间断型(discrete)，而要如何将其分门别类呢，我们通常可以以一些简单且常用的分类方法，来将其分门别类，假设现有一笔观察资料，若将这笔观察资料分类并标示为1,2,…..,K,共 K 个类别(classes)，倘若我们现在要配适的是一组线性模型(linear model)，而使此模型能将这笔观察资料分成K类，则其第k个分类的应变量预测值为，而决定k与l的判别边界(decision boundary)则为当时，即集合所成的点。 ? 以下我们将以Cushing’s syndrome为例，并介绍几种常见的线性与二次的分类方法，资料来源为Aitchison Dunsmore (1975, Table 11.1-3)，此资料主要在于诊断病人是否有患有Cushing’s syndrome，即在诊断病人是否因为肾上腺素的过度分泌造成过度敏感性的失调，在资料中有三种症候群(syndrome)我们分别把它标示为 a , b , c (a代表adenoma , b代表bilateral hyperplasia , c代表carcinoma)，另外有六个病人属于不知何种症候群(syndrome)的，我们将他们标示为u，而观察值为tetrahydrocortisone与pregnanetriol在尿液中类固醇分泌物的比列(mg/24h)的对数值，以下我们将介绍分类方法。 ? ? 二、统计的线性与二次分类方法： A、线性判别分析(Linear Discriminant Analysis) 所谓判别分析法(Discriminant Analysis)，是在已知的分类之下，一但遇到有新的样本时，可以利用此法选定一判别标准，以判定如何将新样本放置于哪个类别中，而线性判别分析(Linear Discriminant Analysis 简称 LDA)，是判别分析中主要的工具。最早由R.A.Fisher(1936)提出，分类的判定理论里告诉我们需要去知道最佳分类下的各类别事后机率 Pr( G | X )，假设为 G=k 时 X 的条件密度函数且为类别k时的事前机率(prior probability)并满足，以贝式理论的观点告诉我们，假设每一类别的密度函数为一多维的常态分配(multivariate Gaussian)，且这每一类别的多维常态分配(multivariate Gaussian)有一样共同的共变异矩阵(covariance matrix)时，在比较类别k跟l时，我们可以容易的由对数概度比(log-ratio)清楚的得到x的线性函数，此线性对数胜算比函数(linear log-odds function)暗示我们区分k跟l的判别边界(decision boundary)即为 Pr( G = k | X = x ) = Pr( G = l | X = x ) 所成的集合，此集合在二为空间中则形成一直线，在p维空间中则形成一个超平面(hyperplane)，当然这对任意的两个类别的区分都成立且所有的判别边界(decision boundary)均为一直线或超平面(hyperplane)，将此方法用于Cushing’s syndrome的例子(如下图所示)，我们可以清楚的看到，共有两条直线将资料分成三类，其中共有五个分错。 B、二次判别分析(Quadratic Discriminant Analysis) 根据上述所假设的资料型态与模型中，若每一类别的多维常态分配(multivariate Gaussian)里的共变异矩阵(covariance matrix)彼此不相同时，则上式中的对数概度比(log-ratio)里的共变异矩阵(covariance matrix)则无法消去，此结果将使判别边界(decision boundary)为x的二次式(quadratic form)，因而我们得到二次判别分析(Quadratic Discriminant Analysis 简称 QDA)，，当然这对任意的两个类别区分的判别边