双摘要问题之PC.doc

下载文档 降价啦

1
0
约8.12千字
约 9页
2019-02-04 发布于天津
举报
版权申诉
保障服务

双摘要问题之PC.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

双摘要问题之PC

雙摘要問題之PC-叢集基因演算法 A Genetic Algorithm on PC-clusters for the Double Digest Problem 曾亮嘉、侯玉松? ? 聯絡信箱: yshou@chu.edu.tw 中華大學資訊工程系摘要在生物資訊研究領域中，雙摘要問題(double digest problem)是實踐「限制輿圖」 (restriction mapping)法所要解決的重要問題。在文獻中指出，雙摘要問題是NP-難(NP-hard)問題，尚未發展出多項式時間之演算法解決這個問題。在本論文中，我們將設計基因演算法(genetic algorithm)以解決雙摘要問題，並在PC-叢集(PC-cluster)上發展其分散式演算法，以加快演算法執行速度。在論文最後，將提出實驗數據，以檢討演算法的執行成效。 1、概論在生物資訊研究領域中，實體輿圖(physical mapping)問題是針對一段DNA片段，要找出它在基因體(genome)中所座落的位置。目前實體輿圖問題的解決方法，主要有兩種：一是限制輿圖(restriction mapping)法，另一是雜交輿圖(hybridization mapping)法。[1] 在限制輿圖法中，有一種方式是利用兩種限制脢(restriction enzyme)將DNA片段切割成許多小片段，記錄這些小片段的長度，再利用這些長度資料重組小片段的前後排列次序，此即雙摘要問題(double digest problem，簡稱DDP)，利用此排列次序，可在基因體中找出這段DNA片段所座落的位置。以例一說明：例一：假設某DNA片段，使用限制脢A加以切割，可得到4種小片段，其長度分別為3、5、8、9；使用限制脢B加以切割，亦可得到4種小片段，其長度分別為3、4、7、11；同時使用限制脢A與B加以切割，可以得到7種小片段，其長度分別為2、3、3、4、4、4、5。利用上述之各小片段長度資訊，分別對限制脢A與B所切割的4種小片段做排列，使其吻合同時使用限制脢A與B所切割的7種小片段的長度，如圖一即為一種排列方式。 ? 8395A 8 3 9 5 A 41173B 4 11 7 3 B 2344345AB 2 3 4 4 3 4 5 AB 圖一：滿足限制脢A、B、AB所切割之小片段長度資料的排列方式關於DDP的研究文獻中，Goldstein與Waterman在[2]中已證明DDP是NP-難(NP-hard)問題，所以目前尚未發展出多項式時間之演算法解決這個問題。在[3]的4.4節中，Waterman曾提出使用模擬退火法(simulated annealing)來解DDP，但未說明其執行效能。本論文擬採用基因演算法(genetic algorithm，簡稱GA)方式來解DDP，因為GA易於分散式處理，所以我們又利用PC-叢集(PC-cluster)來實作其分散式GA。以下在第二節將介紹DDP的GA的設計概念，在第三節介紹DDP的PC-叢集之分散式GA，在第四節檢討其執行效能，在第五節做結論。 2、雙摘要問題之基因演算法設計 2-1 基因演算法概述 GA是一種最佳化的技巧，可以在很大的解集合空間中，快速搜尋出最佳解。GA的工作原理是基於達爾文的進化論的「物競天擇」學說，首先在解集合空間中隨機挑選出數個解，做為初始人口(initial population)，再透過「適應函數」(fitness function)對所有個體(individual)，分別計算其適應度，加總所有個體的適應度，再分別計算各個體的適應度佔總適應度的比例，當做被選擇為配種代表的機率。然後根據此機率分佈，在所有個體中選出配種代表，利用交換(crossover)與突變(mutation)等基因運作(genetic operator)產生新生代，並從配種代表以外的個體中，以新生代隨機取代之，以產生第二代人口。如此週而復始，再產生第三代、第四代…，則人口的適應度將會逐漸提高，最後將產生最優秀品種，即最佳解。圖二[4]將上述之GA工作原理以演算法方式表示，觀念更加清楚。 Choose a population size. Choose the number of generations NG. Initialize the population. Repeat the following for NG generations: Select a given number pairs of individuals from the population probabilistically after assigning each structure a probability proportional to o