- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
双摘要问题之PC
雙摘要問題之PC-叢集基因演算法
A Genetic Algorithm on PC-clusters for the Double Digest Problem
曾亮嘉、侯玉松?
? 聯絡信箱: yshou@chu.edu.tw
中華大學資訊工程系
摘要
在生物資訊研究領域中,雙摘要問題(double digest problem)是實踐「限制輿圖」 (restriction mapping)法所要解決的重要問題。在文獻中指出,雙摘要問題是NP-難(NP-hard)問題,尚未發展出多項式時間之演算法解決這個問題。在本論文中,我們將設計基因演算法(genetic algorithm)以解決雙摘要問題,並在PC-叢集(PC-cluster)上發展其分散式演算法,以加快演算法執行速度。在論文最後,將提出實驗數據,以檢討演算法的執行成效。
1、概論
在生物資訊研究領域中,實體輿圖(physical mapping)問題是針對一段DNA片段,要找出它在基因體(genome)中所座落的位置。目前實體輿圖問題的解決方法,主要有兩種:一是限制輿圖(restriction mapping)法,另一是雜交輿圖(hybridization mapping)法。[1]
在限制輿圖法中,有一種方式是利用兩種限制脢(restriction enzyme)將DNA片段切割成許多小片段,記錄這些小片段的長度,再利用這些長度資料重組小片段的前後排列次序,此即雙摘要問題(double digest problem,簡稱DDP),利用此排列次序,可在基因體中找出這段DNA片段所座落的位置。以例一說明:
例一:假設某DNA片段,使用限制脢A加以切割,可得到4種小片段,其長度分別為3、5、8、9;使用限制脢B加以切割,亦可得到4種小片段,其長度分別為3、4、7、11;同時使用限制脢A與B加以切割,可以得到7種小片段,其長度分別為2、3、3、4、4、4、5。
利用上述之各小片段長度資訊,分別對限制脢A與B所切割的4種小片段做排列,使其吻合同時使用限制脢A與B所切割的7種小片段的長度,如圖一即為一種排列方式。 ?
8395A
8
3
9
5
A
41173B
4
11
7
3
B
2344345AB
2
3
4
4
3
4
5
AB
圖一:滿足限制脢A、B、AB所切割之小片段長度資料的排列方式
關於DDP的研究文獻中,Goldstein與Waterman在[2]中已證明DDP是NP-難(NP-hard)問題,所以目前尚未發展出多項式時間之演算法解決這個問題。在[3]的4.4節中,Waterman曾提出使用模擬退火法(simulated annealing)來解DDP,但未說明其執行效能。
本論文擬採用基因演算法(genetic algorithm,簡稱GA)方式來解DDP,因為GA易於分散式處理,所以我們又利用PC-叢集(PC-cluster)來實作其分散式GA。
以下在第二節將介紹DDP的GA的設計概念,在第三節介紹DDP的PC-叢集之分散式GA,在第四節檢討其執行效能,在第五節做結論。
2、雙摘要問題之基因演算法設計
2-1 基因演算法概述
GA是一種最佳化的技巧,可以在很大的解集合空間中,快速搜尋出最佳解。GA的工作原理是基於達爾文的進化論的「物競天擇」學說,首先在解集合空間中隨機挑選出數個解,做為初始人口(initial population),再透過「適應函數」(fitness function)對所有個體(individual),分別計算其適應度,加總所有個體的適應度,再分別計算各個體的適應度佔總適應度的比例,當做被選擇為配種代表的機率。然後根據此機率分佈,在所有個體中選出配種代表,利用交換(crossover)與突變(mutation)等基因運作(genetic operator)產生新生代,並從配種代表以外的個體中,以新生代隨機取代之,以產生第二代人口。如此週而復始,再產生第三代、第四代…,則人口的適應度將會逐漸提高,最後將產生最優秀品種,即最佳解。
圖二[4]將上述之GA工作原理以演算法方式表示,觀念更加清楚。
Choose a population size.
Choose the number of generations NG.
Initialize the population.
Repeat the following for NG generations:
Select a given number pairs of individuals from the population probabilistically after assigning each structure a probability proportional to o
文档评论(0)