- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第八届华中地区大学生数学建模邀请赛
承诺书
我们仔细阅读了第八届华中地区大学生数学建模邀请赛的竞赛细则。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们的参赛报名号为:
参赛队员(签名):
队员1:
队员2:
队员3:
武汉工业与应用数学学会
第八届华中地区大学生数学建模邀请赛组委会
第八届华中地区大学生数学建模邀请赛
编号专用页
选择的题号:B
参赛的编号:
(以下内容参赛队伍不需要填写)
竞赛评阅编号:
PAGE
PAGE1
模型假设
针对本问题,建立如下合理假设:
题目所给数据准确可靠;
(2)假设不考虑个体差异性;
(3)基因表达呈高斯分布;
符号说明
表示第n个基因基于时间序列的第m组数据;
表示一个基因;
为回归系数;
代表基因X在时间点t具有的表达值;
为常数;
为误差项。
5.问题一的建模与算法实现求解
5.1数据的分析
问题一需要根据所给的基因表达谱数据来重构基因调控网络,附录一中的sheet1中给出了17个志愿者体内的10000种基因,随着注入病毒后的时间变化而出现的数值变化。由于数据集过大,所以第一步要做的就是对这一万种基因进行筛选降维操作。只选取部分具有代表性的数据代入模型,从而减少计算量。对于数据的处理部分,采用多元统计中的常用方法,主成分分析和聚类分析。
5.2数据预处理
5.2.1数据处理方法选择
由于这道题目的数据量庞大,所以,如何筛选数据就成了很重要的一步。我们这里采取先对10000组数据做主成分分析,形成1000组新变量,再对这些新变量进行聚类分析,进一步降维。
5.2.2主成分分析
主成分分析的基本思想:
主成分分析的基本思想是通过构造10000个基因初始数据的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原先所有基因的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息。
主成分分析的实现:
设有个样品,个变量(指标)的数据矩阵。本题中n=10000,表示10000种基因;m=268,表示基于时间序列的基因数据变化指标。
寻找个新变量,使得
1、
2、彼此不相关
主成分的系数向量的分量刻划出第个变量关于第个主成分的重要性。
可以证明,若为维随机向量,它的协方差矩阵的个特征值为,相应的标准正交化的特征向量为,则的第主成分为。
称为主成分的贡献率,为主成分的累计贡献率,它表达了前个主成分中包含原变量的信息量大小,通常取使累计贡献率在85%以上即可。当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
计算步骤如下:
1、由已知的原始数据矩阵计算样本均值向量;
其中
2、计算样本协方差矩阵
其中
3、把原始数据标准化,即,记。形成样本相关矩阵;
4、求的特征根及相应的标准正交化的特征向量,可得主成分为。
(3)主成分分析降维结果
用Matlab实现以上算法(代码见附录),实现结果如下:
图5.1主成分分析结果
如图可见是一个1000组新的变量,由于数据集比较大,在这里只截出一部分。
下面再对这1000组新变量做聚类分析处理。
5.2.3聚类分析
(1)聚类分析的基本思想:
聚类(clustering),简单的讲就是将一个给定的数据集分成若干个不同簇的过程。聚类算法中的簇指的是数据对象的集合,且这种数据对象集合必须满足条件:同一簇中的数据对象间具有较大的相似性,而不同簇
原创力文档


文档评论(0)