- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
参赛密码
(由组委会填写)
“华为杯”第十三届全国研究生
数学建模竞赛
学校 上海对外经贸大学
参赛队号
1. 詹德勇
队员姓名 2. 段 伟
3. 谢灵艳
参赛密码
(由组委会填写)
题目: 具有遗传性疾病和性状的遗传位点分析 (B题)
摘要:
本文根据1000个样本的遗传病和性状信息,以及9445个位点上的遗传信息,利用
多种统计分析、优化软件,进行大批量的数据处理和数据挖掘,主要完成了以下几个方
面的工作:
对于问题1,传统的基于碱基的编码方式是以碱基为基本单位,对C,T,A,G 四个碱
基对应编码0(00),1(01),2(10),3(11)四个数字。由于本文所有数据最小分析单元为位
点,每个位点的观测对应两个碱基,因此我们以位点为基本单位,对等位基因TT,TC,CC
编码0(00),1(01),2(10),相比传统的的编码方式,基于位点的碱基对数值编码方式能
有效减少内存,便于数据分析。
对于问题2,首先对位点数据进行预处理,考虑到基因的遗传必须满足基本的传统
统计特征,因此,在一定的显著性水平阈值下,基于最小等位基因频率和Hardy-Weinberg
平衡定律对题目所给的全基因组进行分析,从而剔除了97个不满足条件的位点。在预
处理之后,为寻找与疾病A可能相关的位点,采用列联表分析方法,通过卡方检验和
Fishers精确检验,计算每个SNP等位基因与疾病A 的统计量,统计检验显著的位点即
为与疾病A相关联的致病位点。为进一步筛选出与疾病A关联性较强的位点,我们引入
了在信用评分、营销响应预测中常用的变量选择方法——信息值IV,通过计算每个位点
关于疾病A 的IV值,IV值越大则影响度越高。综合对比两种方法所得的致病位点,并
通过具体分析排除信息值为无穷大的特殊位点,最终,我们认为,与疾病A最有可能关
联的致病位点是rs2273298。
对于问题3,考虑基因与疾病之间的关联性,实际上是个分类预测问题,即当个体
拥有某基因时,判断其进入健康组或患病组的概率,因此,我们采用决策树的方法求解。
考虑到若直接对300个基因分别做决策树,判断基因与疾病的关联性,计算量过大,故
我们采取降维的思想。由于300个基因中位点对应唯一基因,因此我们先以位点为研究
对象,基于问题2的统计检验结果和相关挑选规则,选出满足筛选条件的10个位点,
也即10个基因。在此基础上,我们对每个基因做决策树,以混淆矩阵和ROC 曲线作为
评价标准,比较各决策树的优劣程度。最终发现gene102和gene55的准确率最高,分
别为63.8%和61.6%。因此我们认为这两个基因与疾病A 的关联性最强。
对于问题4,由于观测样本包含10个性状的不同观测的组合,其理论的性状类别有
210即1024种,即使考虑1000个样本的实际性状表现不超过1000,显然维度过高,因
此先对样本的性状表现做聚类分析,提出出有代表性的综合性状。我们考虑基于类平均
法的距离公式,对样本进行系统聚类,以R2和偏R2为参考指标,最终确认了
7,16,20,50,100等不同的聚类数。在确认聚类数后,利用k-均值聚类法,计算出基于
1
每一个聚类数所得的综合性指标,类似于问题2,再将综合指标关于位点做统计检验,
找出与综合指标有显著关联的10个位点。进而,为了考察所选位点的正确性,我们进
一步对所选的10个位点和原始1000个样本的10个性状做关联性分析,统计结果显示
所挑选的10个位点中的8个位点,都与题目所给的10个初始性状中的一个或多个性
您可能关注的文档
- 洁净车间微生物控制与检测.pdf
- 健康管理师(人体解剖基础与生理功能).pdf
- 根与根茎类3中药鉴定.pptx
- 进展期胃癌多学科诊治.pptx
- 经颈、胸腔镜双切口胸骨后巨大甲状腺肿物麻醉与气道管理.ppt
- 心脏影像学解剖学基础.ppt
- 牙髓与根尖组织生理学特点.ppt
- 具有遗传性疾病和性状遗传位点分析.pdf
- 具有遗传性疾病和性状遗传位点分析定位.pdf
- 具有遗传性疾病和性状遗传位点分析研究.pdf
- 广东省东莞市2024-2025学年八年级上学期生物期中试题(解析版).pdf
- 非遗剪纸文创产品开发经理岗位招聘考试试卷及答案.doc
- 广东省东莞市2024-2025学年高二上学期期末教学质量检查数学试题.pdf
- 体育安全理论课件图片素材.ppt
- 3.1 公民基本权利 课件-2025-2026学年道德与法治八年级下册 统编版 .pptx
- 广东省潮州市湘桥区城南实验中学等校2024-2025学年八年级上学期期中地理试题(解析版).pdf
- 大数据运维工程师岗位招聘考试试卷及答案.doc
- 广东省深圳市福田区八校2026届数学八年级第一学期期末教学质量检测模拟试题含解析.doc
- 广东省潮州市湘桥区城基初级中学2024-2025学年八年级上学期11月期中考试数学试题(解析版).pdf
- 广东省潮州市湘桥区城西中学2024-2025学年八年级上学期期中地理试题(解析版).pdf
原创力文档


文档评论(0)