- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
具有遗传性疾病和性状的遗传位点分析.
参赛密码
(由组委会填写)
全
“华为杯科技大学
(由组委会填写)
“华为杯”第十三届全国研究生
数学建模竞赛
题 目 具有遗传性疾病和性状的遗传位点分析
摘 要:
本文设计基于属性重要度的选择算法,构建预测模型对不同的位点基因进行分析,判断每个位点基因对某种疾病的预测精度,从而判断是否为致病位点致病基因。最后该算法模型,预测出十种性状相关的致病位点。
针对位点有碱基对组成性质,为了方面描述和分析,采用了十进制编码,每个位点属性值可以通过-9中的一个数进行表示,的编码格式,文中给出了详细的编码表。
了基于属性重要度的选择算法,通过构建出预测模型,问题方式,提取所有样本每列的特征,并对每列的特征属性进行重要度分析,进而判断该与位点, rrs2486182,rs2274119,rs2235537相关。
每个不同位点组成的集合每个的特征属性对应集合里位点特征属性的集合问题模型预测精度,对每个基因的某疾病的重要度进一步分析该疾病与致病基因gene_171本文提出的模型,对性状性状中,继续通过属性,不同性状中的致病位点得出形状的相关位点分别为r rs935075, rs2840758, rs1855786, rs2647168, r rs744834, rs4920522, r r
本文亮点是,提出基于属性重要度的选择算法,预测模型利用网格搜索进行寻优,判断每列属性的重要度,判断致病位点或者致病基因。
:重要度;优化模型SNPs)
一 问题重述
问题1,请用适当的方法,把genotype.dat中每个位点的碱基(A,T,C,G)编码方式转化成数值编码方式,便于进行数据分析。
问题2,根据附录中genotype.dat)和样本患有遗传疾病疾病phenotype.txt文件)。现有300个基因,每个基因所包含的位点名称见文件夹gene_info中的300个dat文件,每个dat文件列出了对应基因所包含的位点(位点信息见文件genotype.dat)。由于可以把基因理解为若干个位点组成的集合,遗传疾病与基因的关联性可以由基因中包含的位点的全集或其子集合表现出来请找出与疾病最有可能相关的一个或几个基因,并说明理由。
问题4,在问题二中,已知9445个位点,其编码信息见genotype.dat文件。在实际的研究中,科研人员往往把相关的性状或疾病看成一个整体,然后来探寻与它们相关的位点或基因。试根据multi_phenos.txt的样本及其genotype.dat),找出与multi_phenos.txt中10个性状有关联的位点。
二 问题分析
问题1的分析
的样本每个样本均有位点位点是一个碱基对,本文通过十进制对所有碱基对进行编码,此特征表示方法,每个样本得到属性每个属性通过-9中的数值进行。
分析
问题要利用某种方法,进行致病位点和致病基因的检测预测疾病的致病位点该疾病的致病位点,其实就是判断不同位点对该疾病的程度,即判别每个位点的属性重要度。设计了基于属性重要度的选择算法,利用预测器,每个位点对疾病的预测精度从而得到该疾病相关的致病位点
问题3的分析
问题,问题是与某疾病相关的致病位点,而某个基因是由多个位点组成的集合,识别某疾病相关的致病基因,为了识别致病基因,基因是由多个位点组成的集合,基因的特征属性即多个位点特征属性组成的集合。利用基因的特征属性,通过问题设计的算法和构建的预测模型,从而识别某疾病相关的致病基因。
分析
,的某些疾病是和性状相关的,材料中提供了性状要求判断这性状的的致病位点可以对每个性状分析,问题设计的选择算法和构建的预测模型,某个性状相关的致病位点。
三 模型假设和符号说明
3.1 模型假设
样本能代表的正常和患病群体
(2)忽略寻优时造成的偏差的位点和基因均是有效的位点和基因。说明说明
(1) A,C,G,T :DNA中的四
(2) Acc :即accuracy,预测精度
PCn :第n个位点的属性S :特征属性子集
:通过十进制编码得到位点子集的特征属性
:第i个位点的属性,第1组属性选择中进行融合
Sig :即significant,属性重要度
.1 问题 另外,位点中出现‘I’和‘D’,根据说明,用‘C’代替
4.2 问题2:找出与疾病最有可能相关的一个或几个位点
4.2.1 位点属性矩阵
由于所有样本序列上的本一个二核苷酸位点代表了一个属性,本文总共有9445个位点即这些属性1)。其中,属性列中PC1~PCn AA,
文档评论(0)