- 1
- 0
- 约1.26万字
- 约 5页
- 2021-09-02 发布于湖北
- 举报
基于分组重量编码和特征选择技术预测外膜蛋白
南重汉1, 邹凌云2 (721006 陕西 宝鸡,解放军第3医院传染结核病防治所1;400038 重庆,第三军医大学基础医学部微生物学教研室,重庆市微生物工程实验室 2)
[摘要] 目的 建立新的机器学习模型,从蛋白质数据集或全基因组蛋白质序列中预测外膜蛋白。方法 采用分组重量编码和氨基酸组成计算蛋白质序列特征,采用F-score方法反向选择特征,采用支持向量机算法建立分类模型,在1 087条蛋白质序列构成的数据集上进行测试,评价预测模型的敏感性、特异性和预测精度,在多个细菌的全基因组蛋白质中预测外膜蛋白。结果 新的序列组合编码方法与SVM相结合,区分外膜蛋白和?螺旋跨膜蛋白、球状蛋白、非外膜蛋白的准确度分别达到94.7%、96.4%和94.6%,经特征选择之后,分类准确度分别提高到95.7%、96.9%和95.9%,且在基因组数据集中的预测结果与已知事实相符度高。 结论 该方法预测准确度优于其它基于序列特征的预测方法,可用于在基因组序列中预测和筛选新的外膜蛋白。
[关键词] 外膜蛋白;分组重量编码;特征选择;支持向量机
[中图法分类号] Q61;Q811.4 [文献标志码] A
Prediction of outer membrane pro
原创力文档

文档评论(0)