- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
单体型装配问题的研究现状
杨英杰
()
单核苷酸多态性SNP)是指不同个体DNA序列上的单个碱基的差异,是人类基因组中最丰富的遗传变异。单体型是指位于一条染色体上或某一区域的一组相关联的SNP等位基因。研究表明在复杂性疾病研究方面,由多个变异位点组合构成的单体型所携带的信息比单个的SNP数据的信息更有价值,由此衍生了单体型装配问题。文章论述了SNP,单体型,基因型的定义,综述了求解单一个体单体型装配问题的主要模型及算法,同时阐述了求解群体单体型装配问题的5种方法及算法。;;SNP;
中图分类号:R394 文献标识码:A 文章编号:1673-9639 (2011) 02-0135-04
1.SNP、单体型与基因型
国际人类基因组测序计划的完成,为全世界的科学家提供了一套精准的人类基因组序列图谱,为人类真正了解自身奠定了重要基础。同时,我们也惊奇地发现:任何两个不同个体的基因组序列至少有99.99%的碱基对是相同的,也就是说剩下的仅仅0.01%的差异包含了遗传上的差异因素。人们普遍认为DNA序列上的差异是不同个体之间表型差异(如肤 色、发色,以及对疾病、药物的敏感性等)的重要原因。这些序列上单个碱基的差异称为单核苷酸多态性(SNP)。它是人类可遗传变异中最常见的一种,占已知多态性的90%以上。SNP)是指染色体上的某些核苷酸位置,在这些位置上,不同个体的DNA 序列有多种取值。在SNP 位置上出现的核苷酸称为等位基因。一般地,在一个生物种群当中,出现在某个SNP位置上的核苷酸只有两种,而不是四种(A、G、C、T)。位于一条染色体
上某一区域的一组等位基因称作单体型。位于一对染色体上某一区域的由成对的等位基因所组成的序列称作基因型,基因型是一对单体型的混合信息,如图1所示。如果基因型的某个位置上的一对等位基因相同,则称这个SNP位置上是纯合的,否则称为杂合的。
图1 某个个体的单体型与基因型
由于单体型包含着多个SNP的遗传信息,许多研究表明,在与复杂性状的相关分析中,采用单体型比单个SNP具有更好的统计分析效果。由于在现有的实验条件下获得单体型数据非常困难,也非常昂贵,而获得基因型数据或SNP数据却很容易,因此利用计算
的手段推测单体型数据越来越重要,由此衍生了单体型装配问题。它大致分为两类,一类是单一个体单体型装配问题,一类是群体单体型装配问题。
2.单一个体单体型装配问题
单一个体单体型装配问题是从给定的某对染色体上的SNP片段数据来装配某个个体的一对单体型。给定的数据可能是比对好的带有SNP信息的基因组片段(由鸟枪测序法得到),也可能是进行大规模单体型推测时前期工作所得到的。当我们只考虑SNP位置时,这些短的基因组片段实际上就是比对好的SNP片段。如果知道一个个体的某对染色体上的全部DNA 序列,装配单体型实际上就是简单地检查一些SNP位置上的核苷酸取值。然而,由于DNA 测序方法的限制,我们只能得到一些短的DNA片段,而且这些片段不可避免地含有一些错误。另外,两条染色体的同源性也使问题变得复杂,因为我们不知道哪个片段属于哪条染色体。从计算的角度讲,单体型装配问题就是从给定的数据(可能有错误,有矛盾)中确定出一对最好的单体型。也就是说,如何根据片段上的SNP信息将给定的比对好的SNP片段分成两个集合,从而每个集合确定一条单体型。单一个体单体2.1.SNP去除模型
二者是由Lancia等在2001年提出的。前者假定造成数据不一致的原因是由于污染,即有些SNP片段不是来自目标生物体,而是来自生物体,因此,强调去除最少的片段使得剩下的数据一致、不再有矛盾。后者假定所有的DNA 片段都来自同一生物体,但测序过程中产生一些错误,因而要求去掉最少的SNP位置使得片段在余下的SNP位置上不再有冲突。Lancia还讨论了这两个问题的计算复杂性,在给定的片段没有间隙时是多项式可解的,片段在有间隙时是NP-难问题。Rizzi等在2002年给出了求解这两个模型的动态规划算法。[1] 当SNP片段上的最多间隙数k固定时,这些动态规划算法是多项式时间的算法。
2.2. 最少错误纠正MEC)模型
最少错误纠正MEC)模型是由Lippert等在2002年提出的,并证明是一个NP-难问题。这个模型假定所有片段来自同一个生物体,数据的不一致是由测序错误造成的,并且这些错误可以纠正而不是去除整个SNP片段或SNP位置(这种情况很实际)。针对MEC模型的求解的方法主要有两类,一类是精确算法,主要指基于分支定界的精确算法,[2] 但是在可接受的时间之内仅仅能解决小规模的问题,另一类是启发式算法,这类算法虽然不一定能够找到准确最优解,但是它可以在短时间之内找到一个相当好的近似解。王瑞省等在2005年提出了基于遗传算法的启发式算法,[3] 钱伟
您可能关注的文档
最近下载
- 《生物技术制药》第2章 基因工程制药-教学课件(非AI生成).ppt
- 牙龈瘤疾病防治指南解读.docx
- 小学英语《My weekend plan》优质课教学设计、教案 .pdf VIP
- 新解读《GB_T 2292-2018焦化产品甲苯不溶物含量的测定》.docx VIP
- GB∕T 33195-2016 道路交通事故车辆速度鉴定.pdf
- 心血管疾病合并甲状腺功能异常临床诊治专家共识解读PPT课件.pptx VIP
- PLC接线全套图纸.pdf VIP
- 垂直管理改革对启东市生态环境行政执法效能的影响研究.pdf
- 校本篮球教材2016.doc VIP
- JGJ-T220-2010:抹灰砂浆技术规程.pdf VIP
文档评论(0)