- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于针对书面报告的解释
HR Planning System Integration and Upgrading Research of
A Suzhou Institution
Graph Theory
書面報告 3
學號:946349
姓名:蘇育仁
Paper
Title: A Greedier Approach for Finding Tag SNPs
Authors: Chia-Jung Changa, Yao-Ting Huanga, and Kun-Mao Chao
Publication: Bioinformatics Advance Access published January 10, 2006
1、Problem
Single Nucleotide Polymorphism (SNP)
A genetic variation when a single nucleotide (i.e., A, C, G, or T) in the DNA sequence is altered and kept through heredity thereafter.
上述是作者在paper中對於SNP的描述,SNP是同物種中,不同個體在DNA sequence間發生差異的最主要位置,而且通常只有一個鹼基會發生,如下圖:
上圖兩個個體之間,只有一個鹼基有差異,其他的序列都是一樣的,而且在那個SNP的地方,該物種的所有個體不是AT就是CG,不會是其他的,正如paper中那段話提到的,SNP的值是altered。
將一個個體的DNA序列中,只取其SNP的值出來,並以顯隱性表示之,稱為一個haplotype pattern。
正因為SNP的值有顯隱性之分,所以若有兩haplotype patterns A和B,在某一個SNP的值不同,則只要看該SNP的值,就可以區分這兩個haplotype patterns,進而區別出兩個不同個體,如下圖:
上圖中(a)表示在四個haplotype patterns中,四個SNP的值。圖(b)中以S1為例,有弧線相連的兩個patterns表示S1可以分辨的有P1和P2、P1和P3、P2和P4、P3和P4。
Finding tag SNPs
在一群haplotype patterns中,如果有一組SNPs足以分辨所有patterns的話,則稱之為tag SNPs。
以上圖(a)為例,選擇S1為一個tag SNP的話,根據圖(b)所示S1所能分辨的patterns,則必須另外選擇S2或S3以分辨P2和P3,以及選擇S4來分辨P1和P4,所以S1、S2、S4和S1、S3、S4是這些haplotype patterns的兩組tag SNPs。
由tag SNPs的定義,可以知道最差的情況就是把所有SNP都選為tag SNP,一定可以分辨所有patterns,因此找尋tag SNPs的問題,其目的在於找出tag SNP數量的最小值,最佳的tag SNPs可能不是唯一,但是最小值會只有一個解。
尋找tag SNPs的問題,可以如下圖表示為尋找cover的問題:
E1到E6是所有patterns取兩個的所有狀況,而S1到S4為所有SNPs,若Si和Ej間有線相連,表示第i個SNP可以分辨Ej中的兩個patterns。
如此一來,找tag SNPs數量最小值的問題,也就變成尋找最少的D所成的集合,其中包含所有的E,可以視為一個尋找cover的問題,而這類的問題已經被證明是屬於NP-hard。
2、Method
正如前面所提到的,由於這個問題屬於NP-hard的問題,所以有兩類的方式來解決它:
一種是使用比較有效率的approximation algorithm,在paper中有提到,可以用greedy algorithm來處理,也就是maintain一個Dfinal為某些Di所成的集合,每次加一個新的SNP,使得Dfinal中所能分辨的E增加最多,直到D能夠分辨所有E為止。這個方法雖然能把時間複雜度減少為O(|E|nlogn),但是所計算出的tag SNPs數量最小值和最佳解有一段差距,大約是0.5%左右,每個case有不同的差距。
另外一個方法則是使用branch-and-bound algorithm,雖然這樣可以保證找出最佳解,但是這種做法的時間複雜度是指數成長的,因為這個問題是NP-hard。
本篇paper的作者,則是提出了綜合greedy和branch-and-bound的演算法,稱之為Greedy-Partition-Tree (GPT)。
示意如下圖:
上圖中的root表示原來的problem,L的層數可以由使用者決定,而灰色的inte
您可能关注的文档
最近下载
- 2025年中国邮政集团有限公司吉林省分公司校园招聘笔试模拟试题及完整答案详解.docx VIP
- 2024年《汽轮机本体检修》职业技能鉴定知识考试必备题库及答案(共190题).docx VIP
- (名师原创)《我能行》主题班会.ppt VIP
- 2022年初中物理培优(竞赛)及高中自主招生专题训练:第02章声现象(含解析).pdf VIP
- 三式簿记和收益动量 (美)伊尻雄治著娄尔行译.pdf VIP
- 华荣QJZ-2×□SF煤矿风机用隔爆兼本质安全型双电源真空电磁起动器.doc
- 《嗨,你好》幼儿园小班课程PPT课件.pptx VIP
- 2025年中国邮政集团有限公司吉林省分公司校园招聘笔试模拟试题及答案解析.docx VIP
- 可穿戴设备在睡眠数据采集中的应用.pptx VIP
- AI人工智能软件使用课件.pptx VIP
文档评论(0)