- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
对未知蛋白的功能注释是蛋白质组学的主要目标,其中一个关键的注释是对蛋白
质亚细胞定位的识别。蛋白质必须处于合适的亚细胞位置才能发挥其功能,因此蛋白
质的亚细胞定位信息对于了解其功能有重要意义。本文基于蛋白质的N端信号和氨基
酸组分,从氨基酸序列出发,对植物和非植物两类蛋白质数据集进行了亚细胞定位识
别。
首先,对不同亚细胞定位分类的蛋白质序列数据集进行特征分析,包括序列的单
氨基酸出现频率、紧邻二联体频率和 N端信号特征。结果显示单氨基酸组分分布在各
亚细胞定位分类的蛋白质序列数据集中有些差别,但不很显著;紧邻二联体频率在各
亚细胞定位分类的蛋白质序列数据集中是有区别的;N端信号特征在分泌类蛋白质数
据集中与另外三类数据集(植物)或两类数据集(非植物)有明显区别,并且N端特征
区别主要集中在N端前30个位置。
其次,我们采用了不同的分类特征应用多样性增量方法(ID)进行识别。(1)以 N
端信号特征为分类特征,取N端前20位氨基酸分布构成400维信息参数。(2)以氨基
酸紧邻二联体频数为特征构成 400 维信息参数。(3)选取氨基酸频数为特征构成 20
维信息参数。(4)综合 N 端信号和紧邻二联体频数等特征构成 800 维信息参数。(5)
综合N端信号特征、氨基酸出现频数、紧邻二联体频数等特征构成820维信息参数。
分别用自洽检验和5折交叉检验对植物、非植物各类亚细胞定位分类蛋白质数据集进
行识别。结果显示应用多样性增量方法识别优劣的核心是特征参数选择的合适与否;
在综合不同类信息时,用 ID 算法直接将多类信息线性整合在同一个多样性量中并不
一定能直接提高识别精度。
最后,应用多样性增量结合二次判别分析方法(IDQD)进行识别,通过筛选后选取
紧邻二联体频数、N 端信号特征作为 ID 的信息参数,用二次判别函数把它们整合。
在自洽检验中,植物4类亚细胞定位总预测成功率为96.8%,非植物三类预测总成功
率为92.7%;对植物和非植物5-fold交叉检验的总预测成功率分别为87.4%和91.2%。
结果表明 IDQD 算法获得了较高的识别精度,并验证了 IDQD 是一个有效的分类器。
关键词:亚细胞定位;多样性增量;二次判别分析;氨基酸组分;N端信号
Abstract
Functional annotation of unknown proteins is a major goal in proteomics. Subcellular
location of proteins is one of the key functional characters because proteins can perform
nomal biological functions only after they are translocated to correct subcellular locations.
This essay is based on N-terminal sorting signals information and the amino acid
component, embarks from the amino acid sequence, has carried on the subcellular
localization recognition to the plant and the non-plant two albuminoid substance data sets.
First,the essay does the characteristic analysis to the different subcellular localization
classification protein sequence dataset, including the amino acid frequency, adjacent
res
您可能关注的文档
- 哒嗪类化合物的设计合成及生物活性研究.pdf
- 达仁堂二厂ERP系统的分析和设计.pdf
- 大肠杆菌基因组水平蛋白质RNA相互作用初步的研究.pdf
- 大肠早癌自体荧光内镜定位诊断系统的研究血原卟啉Ⅸ、组织原卟啉Ⅸ含量和大肠癌在体自体荧光差异的相关性.pdf
- 大豆纤维的抗皱整理的研究.pdf
- 大连主城区绿地景观格局和生态服务功能动态.pdf
- 大气羰基化合物碳同位素及其大气有机污染物的研究.pdf
- 大容量聚合物电极材料在二次锂电池中的应用的研究.pdf
- 大鼠肾脏缺血预适应现象的证实及机制的研究.pdf
- 大鼠胰腺癌缺血再灌注加微球栓塞分子生物学实验的研究.pdf
- 氮羟甲基蛋氨酸钙对中国荷斯坦奶牛瘤胃代谢及其生产性能的影响.pdf
- 德语文学的影响和二十世纪中国作家的自我意识发展.pdf
- 的研究一YAP蛋白在哮喘支气管平滑肌中表达研究的研究二快速检测嗜肺军团菌方法的初步探究.pdf
- 邓小平民主政治思想及创新和发展的研究.pdf
- 低成本阳离子可染聚酯的合成及其工业放大的研究.pdf
- 低价钛试剂作用下杂螺烯类似物及其杂环化合物的合成的研究.pdf
- 地方高校贫困生就业中的政府责任的研究.pdf
- 地方品种芦花鸡禽白血病初步净化的研究.pdf
- 第29届奥运会中外男篮组织后卫进攻能力的比较分析和对策的研究.pdf
- 第二语言听力理解的条件和过程___把听力教学整合到阅读中的个案的研究.pdf
最近下载
- 人教版(2024)七年级上册生物全册集体备课教案 .pdf
- YYT 1789.4-2022 体外诊断检验系统 性能评价方法 第4部分:线性区间与可报告区间.docx VIP
- 江西省临川第一中学2024-2025学年高一上学期开学考试历史试题(解析版).docx VIP
- 2023年汕头市投资控股集团有限公司人员招聘考试题库含答案解析.docx VIP
- 一种凝汽式汽轮机低压缸效率的在线计算方法.pdf VIP
- 口腔名词解释、大题.pdf VIP
- 《革命烈士诗抄》阅读试题及答案.docx VIP
- 招标代理投标文件.doc VIP
- 2022年汕头市投资控股集团有限公司校园招聘考试笔试试题及答案解析.docx VIP
- 2024年四川宜宾初中学业水平考试数学试卷真题(含答案详解).doc VIP
文档评论(0)