- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数字信号处理方法的 基因识别 1、研究背景及意义 2、基因识别的原理 3、基因识别的流程 4、Matlab实现 5、分析与总结 1、生物信息学的含义 生物信息学是二十世纪九十年代初随着人类基因组计划的启动而诞生的一门交叉学科, 其基本含义是利用数理知识和信息技术去整理和分析生物数据、研究生命的构成、阐述数据的生物学意义以及预测性状,用于研究的生物数据为脱氧核糖核酸(DNA)、核糖核酸(RNA)和蛋白质序列。 生物信息学的学科目的: 建立存储着大量生物信息学数据的数据库 研究、设计、开发有效的生物学数据分析与挖掘方法、算法和工具 利用工具去分析和解释不同类型的生物学数据,包括DNA序列、RNA序列、蛋白质序列、蛋白质结构等。 2、基因识别: 基因识别的含义:找出一个DNA序列或一个物种的基因组序列中编码蛋白质的部分 找出编码蛋白质部分基因的意义: 疾病基因的发现与克隆 生物制药 基因诊断与治疗 遗传病的预防 为什么要进行基因识别? 一个完整的DNA并非处处都能表达遗传信息,具有遗传效应的仅仅是其中某些片段。 真核生物的基因其有外显子和内含子之分,由于内含子属于序列非编码蛋白质的部分,所以在转录后形成mRNA的过程中需要剔除内含子,这便要求研究人员能够准确判断出外显子与内含子的分界点。 RNA编码蛋白质的过程 识别是否存在能编码蛋白质的基因以及该基因区在序列中的位置的两种方法 一类是基于同源序列比较的方法(即上文提到的序列比较),同常借助与己知蛋白质序列的比较、与已知mRNA 序列的比较、与已知互补DNA序列和表达序列标签的比较以及相近物种基因组序列之间的比较来实现。 另一种是是基于序列特征的方法,这里的特征包括“结构”(即序列编码蛋白质的部分所具有的某些统计学特征)和“信号”(即能判断基因存在的某些序列所呈现的特征),“信号”预测则是本文要研究的对象。 二、基因识别的原理 所谓3-碱基周期性,是指在序列编码蛋白质的部分中脱氧核苷酸的排列存在着周期为3的短程相关性,或者说是指对数值序列进行Fourier变换后编码蛋白质的序列的功率谱在归一化频率2/3处出现明显的高峰(也就是说,如果DNA序列的长度为Nbp,则最终得到的功率谱会在N/3频率处得到峰值),这种特性序列非编码蛋白质的部分不存在。这就是为什么要选择3-碱基周期性作为特征提取的依据。 3-碱基周期性的原因 之所以会出现这种现象,是因为脱氧核苷酸在分布上存在不均衡: 序列非编码蛋质的部分的脱氧核苷酸在每个位置上都等概率分布,而序列编码蛋白质的部分构成一个密码子的三个含氮碱基在分布上就不是等概率的了 原因是蛋白质的生成更倾向于某些特定的氨基酸,导致序列编码蛋白质的部分某些脱氧核苷酸会被大量使用 实际外显子区域 3-碱基周期性验证 三、信号识别基因的基本流程 雄于序列信3?特征的方法足将转淡位点、起始密码了、外品了与内ivr的分 界点、终止密码子等闲实现特)的功能而其备的序列转化为数值序列进行分析,提取这些数值序列的特征后两对应到扣关的位置和功能上去,从而对待识别的DNA淨列进行判断。这?方法近似于模式识别 基于序列信号特征的方法是通过一定的映射规则将它映射为数值序列,这样一条 DNA 序列就可以看作一个离散的时间信号,而 DNA 序列的信息也全部包含其中。在此基础上我们就可以使用信号领域的一些分析方法,如自相关分析、傅立叶变换、小波变换等来对离散时间信号进行分析,观测 DNA 序列潜在的周期特性。 1、字符序列转化为数值序列的主要方法 DNA序列的数值映射种类繁多,譬如BR、Z-Curve、PSC,还有嘌呤-嘧啶法、复数法等,这些方法将原本的一个字符序列转化为一个或多个数值序列,序列的维数(即转化得到的数值序列的个数)不同,计算量也不同,用于分析的结果也有差别。 BR法,又被称作Voss映射 2、处理信号的原理与方法 对于一个给定的DNA序列,在将其数值化之后,还需要根据原始序列的特性来提取数值序列的特征,通过对特征的分析来找出编码蛋白质的序列与非编码蛋白质的序列的区别,从而判断出序列编码蛋白质的区域。 最常用的原始序列的特性为3-碱基周期性 常用的提取方式和分类依据为基于DFT的SCM(Spectral Content Measure)和SNR(Signal-to-Noise Ratio)。 SCM-基于序列信号特征的谱内容测量法 SCM的第一步就是将已经数值化的DNA序列进行DFT 第二步则是将得到的几个复数序列分别平方后得到各自的功率谱,然后相加求总的功率谱(以BR所得序列举例) 其中N为一段序列中的碱基数 SNR 为了能够利用3-碱基周期性分辨序列编码蛋白质的区域
您可能关注的文档
最近下载
- 烟草考试真题及答案.doc VIP
- 2025年最新人教版八年级(初二)数学上册教学计划及进度表(新课标,新教材).docx
- 外研版高中《英语》(新标准)选择性必修一Unit1 单元整体教学设计附作业设计.docx VIP
- 5.1《论语》十二章 课件(共48张PPT)统编版高中语文选择性必修上册.pptx VIP
- 计算机网络实验报告(8)网络地址转换NAT配置、网络端口地址转换NAPT配置.pdf VIP
- 工程材料及成形技术基础-全套PPT课件.pptx
- 单证员考试试题.pdf VIP
- 地面空压机安装技术措施.docx VIP
- 工程建设法规的案例.ppt VIP
- 农产品食品检验员职业技能竞赛理论考试题库(含答案).docx VIP
文档评论(0)