单体型组装问题参数化建模及算法研究计算机应用技术专业论文.docxVIP

单体型组装问题参数化建模及算法研究计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
单体型组装问题参数化建模及算法研究计算机应用技术专业论文

摘 摘 要 分析和识别单体型对复杂疾病致病基因的精确定位有重要作 用。单体型组装问题是利用个体DNA测序片段数据推出该个体一对 单体型的计算问题。根据不同的优化准则,单体型组装问题有MSR、 MFR、MEC和MEC/GI等计算模型。单体型组装问题的绝大部分计 算模型都被证明是NP一难的,缺乏实用的精确算法。 在实际DNA片段数据中,一个片段所覆盖的最大SNP位点数 kl通常小于10,覆盖一个SNP位点的最大片段数如通常不大于19。 基于以上事实,本文对MSR和MFR进行参数化建模。在此基础上, 为求解无空隙的MSR和MFR,本文设计了时间复杂度分别为 伙nkl恕+所锄彤+聊尼1)和O(mk2z+mklk2+mlogm+nk2)的精确算法 P MSR和P MFR,其中m为片段数,n为单体型的SNP位点数; 为求解有空隙的MSR和MFR,本文设计了时间复杂度分别为 O(2七nklkz+mlogm+nk2+mkl)和0(21mklk2+2j%恕z+脚2I呼纷+玎也+脚尼1) 的精确算法PG MSR和PG MFR,其中k为片段中最大洞数。大量 实验结果表明,在Bafna等的对应算法基础上,上述参数化算法的 效率显著提高,适用于全基因组规模上的单体型组装。 针对长的mate.pair中洞的个数较多的情况,本文提出了求解 MSR和MFR时间复杂度分别为O(nkl/,22动+岛2向+nk2+mkl)和 联尥也3娩+聊logm+刀恕+历七1)的参数化精确算法PM MSR和PM MFR, 其中h为覆盖同一SNP位点且在该位点取空值的片段的最大数。在 实际的DNA测序数据中,赶通常不大于19,而h不大于17,理论 分析和实验结果均表明PM MSR和PM MFR算法所需的时间与片 段中洞的个数的最大值k没有直接的关系,在片段数据中存在长 mate—pair的情况下仍然能有效计算。 根据实际DNA测序片段数据的特点,本文对MEC和MEC/GI 进行参数化建模,进而设计出求解这两个模型时间复杂度均为 O(nk22k2+mlogm+inkl)的精确算法P MEC和P MEC/GI。实验结果表 明,在片段数达到100,Wang等提出的分支限界算法已无法运行的 明,在片段数达到100,Wang等提出的分支限界算法已无法运行的 情况下,P MEC、P MEC/GI和Wang等提出的遗传算法一样,仍 然能快速运行。而作为精确算法,P MEC和P MEC/GI在单体型重 构精度上比Wang等对应的遗传算法有明显优势。 为了提高单体型的重构精度,本文提出了一个基于加权片段数 据和有误差基因型的单体型组装问题计算模型WMEC/GS,然后证 明了即使片段中无空隙其也是NP.难的。进而根据片段数据的特点, 提出了求解该模型的时间复杂度为O(nk22k2+聊蛔+垅后1)的参数化 算法P WMEC/GS。对MEC/GI、WMLF和WMEC/GS三模型的大 量实验表明WMEC/GS模型具有最高的单体型重构精度。 关键词: 单核苷酸多态性,单体型,基因型,NP.hard,参数化算 法 II ABSTRACTHaplotyping ABSTRACT Haplotyping plays an important role in locating complex disease susceptibility genes.The haplotype assembly problem is a computational problem that,given a set of DNA sequence fragment data of an individual,induces the corresponding haplotypes.For the problem, based on different optimal criteria,there are many different computational models,such as Minimum SNP Removal(MSR), Minimum Fragment Removal(MFR),Minimum Error Correction (MEC),MEC with Genotype Information(MEC/GI),etc.Most of the models for the problem have been proven to be NP-hard,and there are not practical exact algorithms for them. Based on the observation that,for the real DNA sequence fragemen

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档