- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
类-食品与生物技术学报.doc
基于功率谱的蛋白质序列特征提取新方法收稿日期:
基金项目:国家自然科学基金;江苏省普通高校研究生科研创新计划资助项目(KYLX15_1188)
作者简介:梁启浩(1991-),男,山西省介休市人,硕士研究生,主要研究方向为:生物信息学,E-mail:896055752@;
*通讯作者:唐旭清(1963-),男,安徽省望江人,教授,博士,主要研究方向为:智能计算,生物信息学,生态系统建模与仿真;E-mail:txq5139@
梁启浩,李阳,唐旭清*
(江南大学理学院, 江苏无锡 214122)
摘要:本文采用分层聚类和熵评价方法进行基于功率谱的蛋白质序列特征提取新方法研究。具体包含以下三个内容:首先基于经典的HP模型进行了氨基酸序列的数值序列表达;其次,采用离散傅里叶变换方法获取蛋白质序列的特征频谱,构造12维特征向量;最后利用分层聚类法获取蛋白质序列的分层结构。这种新方法将已有的基于功率谱的DNA序列特征提取方法推广到蛋白质序列上。通过基于19条动物线粒体脱氢酶亚基1和亚基4,以及11条珠蛋白等三组数据的分层结构比较试验,结果分析表明我们的新方法在数据系统的分层结构的信息提取上优于基于功率谱的DNA序列分析方法。因此,新方法对确定未知基因的结构与功能有重要的生物意义。
关键词:DNA序列;功率谱;分层聚类;蛋白质序列;熵
中图分类号:TP391;O29 文献标志码: A 文章编号:
蛋白质序列特征提取是指依据研究的目的提取序列信息,并使用数学方法描述,建立可以反映序列结构和空间信息的特征向量,进而表达其功能[1]。如何从复杂的序列中挖掘有用的信息是生物信息学的研究方向之一,信号频谱分析技术基于自动信息处理,广泛应用于特征提取的各个领域,比如周期性分析、蛋白质编码区预测和基因识别等方面[2,3]。Yin等[2]将信号处理与分析方法引入DNA序列相似性分析中。Hota等[4]基于快速离散傅里叶变换(Fast Discrete Fourier Transform,DFT)和小波变换(Wavelet Transform,WT),从功率谱等信号处理方法的角度对基因识别进行了研究。王其强等[5]基于功率谱将信号处理与分析方法应用于P53家族基因的三周期性特征分析。这些研究对于大数据中DNA序列处理过程中的特征提取有重要的意义。
蛋白质存在于所有的生物细胞中,是生命的物质基础之一,蛋白质序列的研究具有极其重要的意义。蛋白质空间结构的所有信息均隐藏在氨基酸序列里面,因此研究蛋白质的氨基酸序列组成已经成为生物信息学研究领域的关键问题之一[6]。聚类分析技术已广泛应用于蛋白质序列信息处理的各个方面,如分析蛋白质间的亲缘关系、提取蛋白质结构信息、功能信息等[7,8],其目的是简约数据信息系统、降低系统复杂度。文献[9]通过Voss映射将DNA序列转换为数字序列,采用功率谱方法提取DNA序列的特征信息从而进行DNA序列聚类分析,其中特征信息提取的核心是由离散傅里叶变换的序列特征频谱的()阶矩构造的一个12维的特征向量,并采用传统的非加权组 HYPERLINK /view/1590324.htm \t /_blank 平均法(UPGMA)得到不同物种基于这种相似关系的系统发生树。在此基础上,本文结合基于信号频谱分析技术与层次聚类方法,将DNA序列数据推广到蛋白质序列数据,进行蛋白质序列的特征提取与物种的系统发生树(或分层结构)研究。具体工作分为3个部分:第1部分为本文采用材料与方法,包括数据来源、符号序列数字表达HP模型、基于功率谱的蛋白质特征向量提取、分层聚类方法和聚类结果评价;第2部分为3种数据采用本文方法与文献[9]方法的实验结果比较与分析;最后为本文的结论。
1材料与方法
1.1数据来源
本文从NCBI网站中下载了文献[10]中19种动物的ND1、ND4的蛋白质序列(NADH dehydrogenase subunit1是线粒体NADH脱氢酶亚基1的简写、NADH dehydrogenase subnits4是线粒体NADH脱氢酶亚基4的简写,分别表示为数据1与数据2)进行研究,具体的数据有Gibbon(NC_002082.1),Gorilla(NC_011120.1),Human(NC_012920.1),Chimp(NC_001643.1),Pygmy Chimp(NC_001644.1),Sumatran Orang(NC_002083.1),Bornean Orang(NC_001646.1),Hedgehog(NC_002080.2),Rat(AC_000022.2),Mouse(NC_005089.1),Donkey(NC_001788.1),Horse(NC_001640.
文档评论(0)