单体分型和单体型频率估计:复杂性及算法.pdfVIP

单体分型和单体型频率估计:复杂性及算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
--优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考!!

摘要 计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。单体型信 息因其在医学特别是遗传疾病研究方面具有重要意义,引起生物与医学工作者的极大关 注。但绝大多数所研究的生物个体,包括人类自身,都是双倍体结构:目前由于时问和 经济成本上的约束、在实验室里只能得到双倍体结构的复合基因型序列。因此,当需要 知道物种或者组织的单体型序列信息时,我们必须借助于计算手段,将每一条基因型序 列分解为两务单体型序列,这就是单体分型问题。本文研充了不同数据集及不同模型上 单体分型问题的计算复杂性,设计和实现了一系列高效的单体分型和单体型频率估计算 法。其主要内容和贡献包括: (I)群体数据集单体分型 群体数据集不包含任何幂系信息,是最常见的一种基因型数据集。关于群体数据 集单体分型问题,目前常见的计算手段有Clark算法,PPI—l算法雎及EM和Gs等概率 统计算法。本文对一种新近提出的基于最大节约原则的单体分型(HMP)模型进行了研 该joq题没有比1+P好的多项式时间逼近算法)。因此,我们为其设计了一个多项式时间 的贪d算法以及一个将贪n策略和分支限界策略集合在统一框架下的复台算法。实验结 果表明:贪一。算法在保持了较准确分型结果的基础上.运行速度相当快;而复合算法虽 是完全算法,但其运行效率和实例规模比原有的分技限界算法都得到了极大提高。 群体数据集中特定基因型序列分型(SGH)判定问题与上述Clark算法相关,它可泓 帮助我们更好理解单体分型问题。拳文证明了SGH问题为NP。complete的。 (2)家系数据集单体分型 由于冢系信息的对单体构型的限制,基于家系数据集进行的单体分型和单体型频率 估计的结果会更加可靠。目前对其研咒集中于寻找使得幂手中发生最少重组事件的单体 构型。本文提出了一个E一最少重组单体分型(k-MRIq)模型,它在现有的最少重组单体 分型【MRFI)模型中引八额外限制,使得重组事件在家系中更加合理地平衡分布。同时 设计了k-MRH模型的一个综合了寻根策略的优化动冬规划算法,尽管该模型也是 NP—hard的、但我们的限制条件使其解空间大大缩小,从而大大提高了算法的搜索效率. 这在模拟和实际数据的实验中郝得到了验证。 尘里坠兰垫查奎兰篁圭兰堡兰圣 垫量 零重组单体分型(ZRH)问题是MRH问题一个特例,其目标是为给疋家系求解不 包含任何重组事件的单体构型,它在单体分型以及单体型频率估计方面具有重要意义。 本文给出了ZRH问题的一个最优的线性时问算法:HCL.连锁分析单体分型算法。 (3)家系数据集单体型频率估计 单体型频率估计和单体分型问题密切相关,本丈提出了一个两段式的家系数据集单 体型频率估计方法:i)、单体分型阶段:用HCI...连锁分析单体分型算法找出所有零重 组单体构型:ii).频率估计阶段:发展了原有针对群体数据集的EM算法以在前一阶段 得到的单体构型上进行频率估计,并且使用分割一合并技术,将原指数日}问的EM算法 改造为近似线性时间算法。 以前的直接估计法不考虑家系信息,必须对所有可能的单体型序列进行估计。而我 们的两段式方法多了一个分型阶段,该阶段排除了大量不合理和不重要的单体构型。因 此,整个频率估计日十问大为减少,结果也更加可靠:这些都从实验中得到了验证。 按照研究内容分类,本文的创新之处在于: 为NP—complete的,并为HMP模型成功设计了一个贪d算法和一个复合完全算法,它 们能够解决较大规模的问题实例。 2、家系数据集单体分型在MRlt模型基础上,提出了一个更加合理的k-MRH模 型:并为其设计了一个优化动态规划算法,该算法能够解决犬部分实际的k-MRH问题; 给出了MRH问题的特例——zRH问题一个最优的缉睦时问算法。 3、家系数据集单体型频率估计 首次明确指出零重组单体构型可以作为家系数 据集单体型频率估计的基础:并由此为后者设计了一个两段式方法,比起以前的直接估 计法,该方法所需时问大为减少,结果也更加可靠。 关键词:计算生物学、单核苷酸多态性(SNP),基因型、单体型、单体型分析.单体 分型、单体构型,最大节约原则、家系、三元家庭.重组.最少重组、☆一最少 重组、零重组、组合优化、算法、可计算性、复杂度、NP.hard、APX.hard、

文档评论(0)

wwqqq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档