单体型组装问题参数化建模及算法与研究.pdf

单体型组装问题参数化建模及算法与研究.pdf

优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!

摘 要 分析和识别单体型对复杂疾病致病基因的精确定位有重要作 用。单体型组装问题是利用个体DNA测序片段数据推出该个体一对 单体型的计算问题。根据不同的优化准则,单体型组装问题有MSR、 MFR、MEC和MEC/GI等计算模型。单体型组装问题的绝大部分计 算模型都被证明是NP一难的,缺乏实用的精确算法。 在实际DNA片段数据中,一个片段所覆盖的最大SNP位点数 kl通常小于10,覆盖一个SNP位点的最大片段数如通常不大于19。 基于以上事实,本文对MSR和MFR进行参数化建模。在此基础上, 为求解无空隙的MSR和MFR,本文设计了时间复杂度分别为 PMSR和PMFR,其中m为片段数,n为单体型的SNP位点数; 为求解有空隙的MSR和MFR,本文设计了时间复杂度分别为 的精确算法PGMSR和PGMFR,其中k为片段中最大洞数。大量 实验结果表明,在Bafna等的对应算法基础上,上述参数化算法的 效率显著提高,适用于全基因组规模上的单体型组装。 针对长的mate.pair中洞的个数较多的情况,本文提出了求解 MSR和PMMFR, 联尥也3娩+聊logm+刀恕+历七1)的参数化精确算法PM 其中h为覆盖同一SNP位点且在该位点取空值的片段的最大数。在 实际的DNA测序数据中,赶通常不大于19,而h不大于17,理论 MSR和PM 分析和实验结果均表明PM MFR算法所需的时间与片 段中洞的个数的最大值k没有直接的关系,在片段数据中存在长 mate—pair的情况下仍然能有效计算。 根据实际DNA测序片段数据的特点,本文对MEC和MEC/GI 进行参数化建模,进而设计出求解这两个模型时间复杂度均为 MEC和P MEC/GI。实验结果表 O(nk22k2+mlogm+inkl)的精确算法P 明,在片段数达到100,Wang等提出的分支限界算法已无法运行的 情况下,PMEC、P MEC/GI和Wang等提出的遗传算法一样,仍 然能快速运行。而作为精确算法,PMEC和PMEC/GI在单体型重 构精度上比Wang等对应的遗传算法有明显优势。 为了提高单体型的重构精度,本文提出了一个基于加权片段数 据和有误差基因型的单体型组装问题计算模型WMEC/GS,然后证 明了即使片段中无空隙其也是NP.难的。进而根据片段数据的特点, 算法P 量实验表明WMEC/GS模型具有最高的单体型重构精度。 关键词: 单核苷酸多态性,单体型,基因型,NP.hard,参数化算 法 II ABSTRACT an rolein disease playsimportantlocatingcomplex Haplotyping isa susceptibilitygenes.Thehaplotypeassemblyproblem a setofDNA dataofan problemthat,given sequencefragment the the individual,induces haplotypes.Forproblem, corresponding basedondifferent are different

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档