浅谈三种分类方法优劣.docVIP

下载本文档

11
0
约2.59千字
约 6页
2018-06-21 发布于福建
举报
版权申诉

浅谈三种分类方法优劣.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈三种分类方法优劣

浅谈三种分类方法优劣　　【摘要】本文针对DNA序列的分类问题，通过使用SPSS和Matlab软件，运用Fisher判别法、BP人工神经网络模型和支持向量机方法，由已知AB类样本分别对未知类型的20个DNA序列进行分类.并通过三个统计分类方法的结果同时综合考虑误差及原理分析对三个统计分类方法进行比较，得出三个统计方法的优势及其不全面之处. 　　【关键词】DNA序列；Fisher判别法；BP人工神经网络模型；支持向量机方法　　2000年全国大学生数学建模竞赛A题的DNA人工序列分类要求根据已给出的20个分为A，B两类的DNA序列对另外20个未标明类别的人工序列进行分类，我们由这个类型的题目出发，来谈谈与之相关的三个统计分类方法及其优劣. 　　很常见的一种判别方法就是通过Fisher判别法进行特征值提取及分类，用的是投影的思想，定义一个准则函数JF，找到其最大的解来得到Fisher线性判别式ω*，再根据亲疏程度进行判定分类. 　　在DNA的这题中由于序列是由四种碱基构成，A和B两组各有10个观察数据，判别分析就是要根据这些数据在适当的准则下，由问题分析中的特征向量xi确定判别函数：y=uTxi=ω1x1+ω2x2+ω3x3，再确定临界值ye，然后进行判别分类. 　　Fisher判别法的实现可以借助SPSS软件，用上述算法对已知的1～20组进行分类，除了A组的第4个被错判之外，其余全部分类正确，正确率达到95%. 　　对于未知序列21～40组进行分类，得到的结果是：　　A类：22，23，25，27，29，34，35，36，37. 　　B类：21，24，26，28，30，31，32，33，38，39，40. 　　另外一种分类的方法是利用BP人工神经网络模型，本文考虑两层前传网络，激活函数由函数φ（x）=1[]1+e-nv来决定.本题输入层包含三个单元k=1，2，3，分别为T，G，C的含量；中间层取j=1，2，3；输出层包含两个单元i=1，2，记A类的理想输出为（1，0），B类的理想输出为（0，1），其后我们将碱基T，G，C的含量输入网络，根据输出模式靠近（0，1）还是（1，0）来判断其归于哪一组.为了减小误差，我们让实际输出尽可能接近理想输出. 　　我们将对应于样品S的理想输出记作{TSi}，实际输出记作{QSi}，则实际输出与理想输出的差异为E（W）=0.5∑（TSi-QSi）2.由向后传播算法，求得适当的W，使E（W）达到极小值. 　　为了保证该模型的准确性，我们对数据进行了筛选.由Fisher函数验证结果可以发现，A类中第4 组数据在顺序检验和交叉检验中都出现错误，因此我们认为这个样本是错误值，故删去.使用Matlab软件进行神经网络运算，进过17次训练达到目标值，得到如下结果. 　　A类：27，25，29，23，35，34，37. 　　B类：21，22，24，26，28，30，31，32，33，36，38，39，40. 　　最后要提的是一种支持向量机技术，由于四个碱基比例之和为1，因此我们将DNA序列分类问题转化为三个变量的问题，作DNA样本散点图时可将其看作是三维立体空间的散点图，寻找超平面π把样本空间分割成两部分.记这些样本xi，yi，i=1，2，…，20，yi∈{-1，1}，定义A的输出类别为1，B的输出类别为-1.假设超平面π：ωx+b=0，同时存在两个平行于π的超平面π1和π2：ωx+b=1和ωx+b=-1（ω，x∈R3）.使离π最近的刚好分别落在π1和π2上，其他样本都将位于π1和π2之外，因此建立规划模型：　　min1[]2‖ω‖2s.tyi（ωxi+b）≥1. 　　构造拉格朗日方程，则ω求解方程（λi为拉格朗日系数），ω=∑20i=1λiyixi. 　　输出结果若为1则判为A 类，若为-1则判为B 类.由Matlab运算，我们可得分界面15.8315x-1.9923y+16.9883z-8.6174=0（其中x，y，z轴分别为a，c，g频率）. 　　下面我们定量地检验该模型的合理性，把A，B类共20个样本的数据代入，即让A，B类共20个样本的数据代入上面的分界面方程中，若g（xi，yi，zi）=15.8315xi-1.9923yi+16.9883zi-8.6174≥1，则判为第i个序列为A类；而g（xi，yi，zi）≤1，则判为第i个序列为B类.计算结果20个样本判别结果与绝大多数实际相符（B类第2，7个与实际有很小的误差，小于0.005%可忽略），说明该模型合理. 　　支持向量机得到人工序列21～40的分类结果：　　A类：23， 25， 27，29，34，35. 　　B类：21，22，24，26，28，30，31，32，33，36，37，38，39，40.