- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学建模竞赛培训讲座
数据统计分析模型
参考书
施雨,李耀武编,概率论与数理统计应用,西安交通大学出版社
梅长林,范金成编,数据分析方法,高等教育出版社,
王学民编,应用多元统计分析,上海财经大学出版社
方开泰编,使用多元统计分析,华东师范大学出版社
统计软件
SAS (Statistical Analysis System)
SPSS (Statistical Package for the Social Science)
R
数据统计分析常用模型
方差分析
回归分析
判别分析
聚类分析
主成分分析
相关分析(典型相关分析)
因子分析
列联表分析
时间序列分析
例子
例1:为了比较同一类型的三种不同食谱的营养效果,将19只幼鼠随机地分为三组,每只分为8只、4只、7只,各采用这三种食谱喂养。假定其他条件均保持相同,12周后测得其体重增加量如下表所示,是比较这三种食谱的营养效果是否有显著差异
食谱 体重增加量
甲 164 190 203 205 206 214 228 257
乙 185 197 201 231
丙 187 212 215 220 248 265 281
例子
A B
低剂量
中剂量
高剂量
低剂量
2.4 2.7 2.3 2.5
4.6 4.2 4.9 4.7
4.8 4.5
4.4 4.6
低剂量
5.8 5.2 5.5 5.3
8.9 9.1
8.7 9.0
9.1 9.3
8.7 9.4
低剂量
6.1 5.7 5.9 6.2
9.9 10.5 10.6 10.1
13.5 13.0 13.3 13.2
例子
例3: 费希尔(Fisher)于1936年发表了关于鸢尾花(Iris)的数据。数据是对3种鸢尾花:刚毛鸢尾花(第1组)、变色鸢尾花(第2组)和费吉尼亚鸢尾花(第3组)各抽取一个容量为50的样本,测量其花萼长x1,花萼宽x2,花瓣长x3,花瓣宽x4,单位为mm,数据如下表所示。假定有新样品(x1,x2,x3,x4)=(62.35,58,18),试判别该样品属于哪种鸢尾花。
例子
例4:2000年全国大学生数学建模竞赛A题 DNA序列分类
2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类__________ ;B类 _______________ 。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载:网易网址
文档评论(0)