- 5
- 0
- 约 8页
- 2017-07-01 发布于江苏
- 举报
之子细胞位置预测与分析
基於胺基酸組成份特徵整合支持向量機及遺傳演算法進行微生物蛋白質
之子細胞位置預測與分析
林采妤 廖俊欽 游景盛
逢甲大學資訊工程學系
yucs@fcu.edu.tw
摘要 率(accuracy) 、精確率(precision)等評估指標。
蛋白質存在於細胞當中,而在細胞內不同 研究目的:
位置上的蛋白質分別扮演著不同的角色。過去 以目前知名的 PSORTb3.0[2] 的工具方法為
倚賴實驗方式來確認蛋白質細胞內的位置,既 例,我們希望利用 n-peptide 胺基酸組成份為特
耗時又花費許多金錢,而生命科學領域中仍存 徵(feature)的方式改進預測準確率,故本篇論文
在大量的基因與蛋白質亟需透過實驗了解其研 以相同的資料集,使用支持向量機演算法對細
究標的,因此近年來發展了許多預測蛋白質的 胞內的蛋白質位置進行預測,並結合遺傳演算
子細胞位置(subcellular localization)工具,可大 法尋找最佳參數,並透過整合不同分類器的方
量的處理蛋白質的序列資料,加速細胞系統的 法提升預測準確率。
基礎研究和相關的醫學製藥應用。在本論文
中,我們利用 n-peptide 胺基酸序列組成份不同 2 文獻研究與回顧
的特性作為特徵並透過機器學習的整合方法, 由於基因體與蛋白質體學迅速的發展,資料
結合支持向量機(Support Vector Machine; SVM) 量日漸龐大,僅僅單靠生化實驗方法無法追及
與遺傳演算法(Genetic Algorithm; GA) ,在本研 大量定序資料註解的需求,因此學者們逐漸發
究中以三階層式的處理 – 第一層以遺傳演算 展出透過機器學習的方式自動化預測蛋白質的
法分別進行各支持向量機分類器所使用的特徵 子細胞位置[3] ,從早期1999 年 Nakai[4]等學者
值篩選;第二層將合併第一層的所有分類器的 的 研 究 , 至 2003 年 Gardy 等 人 所 發 表 的
結果進行篩選;第三層則整併前兩層結果,將 PSORTb[5]為當時預測細菌細胞內蛋白質位置
第二層所篩選的分類器,以及其分類器在第一 最為精確的一項工具,所涵蓋的生物包括有格
層所萃取的特徵值進行合併,並再次篩選,皆 蘭氏陰性菌(Gram-negative bacteria) 、格蘭氏陽
以 馬 修 相 關 係 數 (Matthew’s correlation 性菌(Gram-positive bacteria) ,改版後的PSORTb
coefficient; MCC)經五倍交叉驗證評估預測結果 2.0[6]更大幅提升預測的物種範圍和準確率;而
並與前人的方法進行比較,結果顯示:我們的 同時間 PA2.5 、CELLO 、PSORTb2.0 等工具陸
方法在格蘭氏陽性菌的整體靈敏度(sensitivity) 續提出改進預測的方法,如 Proteome Analyst
及準確率(accuracy)可以達到 94.7%及 98.1% ,而 version 2.5 (PA 2.5) [7] 根據同源序列的註解字
古生菌的整體靈敏度更提升到了 98.9% 。 辭以機器學習的方法預測蛋白質子細胞位置;
SLP-Local
原创力文档

文档评论(0)