- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于前面的讨论,运用概率知识:判别法将本来属于总体的样本错判给其它总体的平均损失为那么,关于先验概率的平均错判损失为……(5)如果能找到使得平均损失达到最小,那么就称为贝叶斯(Bayes)判别的解。D.确定平均损失定理1:设有个总体:,已知的联合密度函数为,先验概率为,错判损失为,则贝叶斯(Bayes)判别的解为其中……(6)下面给出贝叶斯(Bayes)判别的解的主要结论:01020304费希尔判别的基本思想:借助于方差分析的思想,利用投影将元的数据投影到某一个方向,使得投影后组与组之间的差异尽可能的大,然后根据一定的判别规则对新样本的类别进行判断。……(7)首先构造一个线性判别函数可见上面的函数将元的数据投影到了一个方向,系数的确定原则是使得总体间的差异最大,总体内部的离差最小。3.3费希尔判别A.确定线性判别函数设有个元总体:,它们的均值为:;协方差为:。在的条件下,有令 这里确定,使得个总体间的差异最大,总体内部的离差最小,则应该达到最大。数学建模培训第十章多元统计分析第十章多元统计分析主讲:孙中奎1.问题引入2.思路点拨3.判别分析方法4.DNA序列分类问题的求解5.参考文献目录1.问题引入首先,我们来考虑一下2000年“网易杯”全国大学生数学建模竞赛的A题是关于“DNA序列分类”的问题人类基因组中的DNA全序列是由4个碱基A,T,C,G按一定顺序排成的长约30亿的序列,毫无疑问,这是一本记录着人类自身生老病死及遗传进化的全部信息的“天书”。但是,除了这四种碱基外,人们对它所包含的内容知之甚少,如何破译这部“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。作为研究DNA序列的结构的尝试,试对以下序列进行分类:问题一:下面有20个已知类别的人工制造的序列(见附件1),其中序列标号1—10为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类;B类。问题二:请对182个自然DNA序列()进行分类。它们都较长。用你的分类方法对它们进行分类,并给出分类结果。看了这道题,我们应当从何处入手呢,我们应该怎样进行分析呢……2.思路点拨细读全题对未知事物进行分类问题的本质对另外20个未标明类别的DNA序列进行分类根据所给的20个已知类别的DNA序列所提供的信息对182个自然DNA序列进行分类如果将每一个DNA序列都看作样本,那么该问题就进一步提炼成一个纯粹的数学问题:设有两个总体(类)和,其分布特征(来自各个总体的样本)已知,对给定的新品,我们需要判断其属于哪个总体(类)。对于上面的数学问题,可以用很多成熟的方法来解决,例如:BP神经网络;聚类分析;判别分析;等等。如何选取方法是建模过程中需要解决的另外一个问题:BP神经网络是人工神经网络的一种,它
您可能关注的文档
- 常见化疗药物的使用顺序及机理.ppt
- 情商提高情商的自我训练.ppt
- 建筑工程定额体系.ppt
- 宫颈妊娠业务学习.ppt
- 年终总结-人力资源助理.ppt
- 市场营销策划的一般原理.ppt
- 对联的撰写技巧.ppt
- 实用社会统计分析技术.ppt
- 定语后置句、宾语前置句.ppt
- 导游英语专业职业生涯规划.ppt
- c程序员面试题及答案.doc
- 第01讲 运动的描述(练习)(解析版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- c的面试题及答案.doc
- 第01讲 运动的描述(练习)(原卷版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- 2003年非典后航空复盘分析报告.pdf
- 第02讲 匀变速直线运动的规律(练习)(解析版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- 第02讲 匀变速直线运动的规律(练习)(原卷版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- c考试题库及答案.doc
- c面试题及答案.doc
- 汽车管件及座椅骨架、异形金属结构件生产线改造项目(技术改造)报告表.pdf
文档评论(0)