应用丛集计算与网格计算技术于生物资讯之研究-东海大学机构典藏.PDF

应用丛集计算与网格计算技术于生物资讯之研究-东海大学机构典藏.PDF

应用丛集计算与网格计算技术于生物资讯之研究-东海大学机构典藏

應用叢集計算 與網格計算技術於 生物資訊之研究 究生 :郭育倫 指導教授:楊朝棟 博士 東 海大學資訊 工程與科 學系 摘要 除了傳統的大型平行電腦之外 由於許多高效能處理器的誕生以及擁有高速傳輸, 頻寬的網路和許多有用發展工具的出現 ,使得分散式電腦叢集(PC Clusters)在現 今的科學計算領域中扮演了非常重要的角色。 生物資訊(Bioinformatics)領域的相 關軟體 以加速巨量序列資 料的分 析,尤其是針對序列的分 析比對。而因為基因 體 序列長,序列數目多,資料庫龐大,並且需要巨量 (High Throughput) 分析比對 及計算,故常 需要許多超級電腦的輔助 ,但建置成本通常所費不貲 。而剛好生物 資訊的資 料庫通常是巨量且獨立的 ,在分配 工作後彼此不常 需要作溝通 , 以多 個 Process 平行地運算。所 以我們利用 成本低廉的多台個人電腦,組成叢集式系 統(Clustering System) 因為個人, 電腦叢集在高速計算領域已被證實 具有很優越的 價格性能 比(Price/Performance) ,且使用叢集技術在 Linux作業 系統平台上 ,透過 PVM (Parallel Virtual Machine)和 MPI (Message-Passing Interface) 介面傳遞資 料 庫 ,來執行高速及平行計算與處理技術是 行的, 而生物軟體所需的便是這種 大 量的平行高速的運算,因此利用叢集電腦的技術便可加速生物資訊研究的時間 。 我們以八台具備雙處理器之叢集電腦為平台 ,已經安裝 了數種 生物資訊軟體,諸 如 mpiBLAST FASTA HMMer ClustalW Tree-Puzzle 與 fastDNAml 等平行 生物資訊軟體, 並針對其執行效能做 比較 發現, 確實 以叢集系統能大幅加快分析 i 的速度 ,其效能改善 大約與 CPU的數目同步 成長 ,因 此利用叢集系統 大幅減 少分析序列所需的時間 。並設計了 一個 操控此生物資訊平台的 入口網站 ,使得 使用者能夠透過此入口介面方便且有效的使用此生物叢集系統。除了叢集電腦 外,我們還使用網格 系統(Grid System) 來做 生物資訊的研究。 近幾年來,『儲存 空間 』和 『骨幹網路頻寬』其增 長速度更勝於CPU ,因 此我們剛好利用 此趨勢 , 發展用以儲存 生物資料的資 料網格(Data Grid)以及利用廣 大運算資源的計算網 格(Computational Grid) 來做 序列比對(Sequence Alignment)的工作 。藉由計算網格 以比利用叢集系統更快速的 完成比對的工作 ,而利用資 料網格技術更 以進ㄧ 步的整合存在網際 網路上所有的生物資訊資料庫(Biology Database)以及實驗室 的實驗數 據等研究資源因此, 結合生物資訊及網格技術 以避免網路上的 用資 源造成浪費並節省許多昂貴的支 出。而通常生物資訊與網格技術整合 而成的系統 稱之為生物網格(BioGrid) 。目前 我們針對生物資訊在網格環境上的研究做 了初步 的測試 ,我們將三組各 具有四台電腦的叢集電腦建構成一組小型網格計算環境 , 並經由 MPICH-G2重新編寫後編譯並安裝 ,經由測試結果發現效能改善約 達 1.5倍左右 ,因此使用網格計算系統也 以大幅縮短生物資料分析的時間 。另外 並開發 一個 以操控此生物網格計算環境的軟體平台 ,利用所開發出 來的軟體 介 面 送出工作與需求,並直覺化的 獲得比對 生的數 據結果 。 ii Apply Cluster and Grid Computing Technology to Bioinformatics Applications Student: Yu-Lun Kuo Adv

文档评论(0)

1亿VIP精品文档

相关文档