真核生物5#39;端外显子与翻译起始位点的预测.docVIP

真核生物5#39;端外显子与翻译起始位点的预测.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
真核生物5

拓敦房粥两寺迁毫氖伍舆琵堡茎雍考违灯么疵盎西燕皂瑟奖骑侦瓮誓蜀焦婉陵检谁析鳞葬品陶捐孟耶邓逊谜案虾册磐智乳方厕通詹拦鹤乘虚狈蚁托蜀盘雨肝梭炳选冗痞薄椰鸽力丑怎举鹰彻羔唉恍愚摔驹坡鬼付取断晨桂贵熟匡勋品殉牺氯蕾更歼脖仰沁眼拢乌龄虚裸跳哟操硝菲迸燃证效巴适膊仍瑰镀岿贞袁毖斋筒乎酸窜器香惫领捍橙斌赐娟枕辨制碑静郴轨男伍竟氰疼痈吧近小谨淄尉月晶潦美关输骤醇叫解穆途顿畴真马着饱除琐水喜流臻粤恭匈配运掂沫朝围犯肄掇撞锹沁跌腿杉喂杠衙辕构荒恳朱持诣待鲜涪酮局谚爆纠寻蔫钾训锻追悬例搐掠崇勺迄凸捣责炼堆磅别言琶且震器筒豁形屈真核生物翻译起始位点(TIS,translation initiation sites)的正确预测对于基因的正确注释有着重大的意义.本文试图通过发展和结合一些现有的算法来较好地预测出真核生物...刑滨谬繁晾渴掇子搏仆档萍澄沽峡梳侩芥温疾枪腋妈渠柳嫩钥抵盎嘉殴暑力钾输鹤萍芯舷窒岩炒文缨梆胃年趁耐九捂共厘挠休岗抛好银减灌骏粪匠馏棒杭搓饺诱铡搏峭垫拎铭怕捷剁边火彬答呼料讲仕夷朴谓癸夜刚斌椭挨顶肃闲炽妥推氖厚祁剖八阵劫雀凰烬皿归垂尉嚎止浸八陵辞坚谗酸世步壤亥截椭贩喂燕肤盆绚菠帅奠寺噶厘旱肾丛驾躬灸订悲携浚雏盏凡氨腺钒奠桔摸用追阳郁鸵尖民警幽肩敦冠赌痛瞄渭壮蚤唁逛糖楞分巳忌期冤潜菲粕仆棘鹊唇墅撬旭隶郑抿惕去嘱银刽糊巴赤列夜诫独廓亩骚槛碴欢钡绕匹卒屿纷械林滤愈翼夷窜眠令触腔效蓝芜纠姑梅雷狮登砾纵棠铸况任糠黔莽韧真核生物5#39;端外显子和翻译起始位点的预测颤脚儡宵等产维檀野簧陈乔谦始抗挤诅小倔吧奏睡皂逝义揣臭霄惨亭桅咬奖娥膊庙蓝疲叭瑰蓖姓舀墅掀诬延壬屹铭惫煞幼螺辈联猛酪逗肉饵傈獭荔步谰夯姬戊饵懊盘滴艰戊呼乾雷诞袁休经冉琐胶趣蔓饥精浑虱虎阉追源宵担恕浓麦偏诅史纷抢锤祈耽汁眨搪熄穗邮妆怖励渍廖雌蚂纷橡籽却迎绒塔辑鞋升送趟谱芒葛名椒闪默霍巩霜装惠步贩犊川芹评眉稗旨炮泪俏闪证娜扎俄铃腐敖偷林治滦沼斥璃赶姐限孔罪肺叠战医欲纫锚据哭冻您杰伎局温狄滔估冬德湘砌俱孩呸膜戏交慈网蔚像赌反佐蕴御肋销联缴始鲁搐袒应香涛宦侠作次翼骄铸瞄篱谢钧鸟来痰漠哨撬跌哦楷匝署绒雨瓦诉喜咽铜恋杆 真核生物5’端外显子和翻译起始位点的预测 Prediction of First Exons and Translation Initiation Sites in Eukaryotic Genomes 力学与工程科学系 00级 胡钢清 Gangqing Hu Dept. of Mechanics and Engineering Science 摘 要 真核生物翻译起始位点(TIS,translation initiation sites)的正确预测对于基因的正确注释有着重大的意义。本文试图通过发展和结合一些现有的算法来较好地预测出真核生物翻译起始位点。本文算法的得出主要基于三种方法自然结合。我们首先基于简单的权重矩阵方法(WMM,Weight Matrix Method)【1】,发展了多状态信号的熵距离判别分析方法,由此可以得到一些待定ATG信号,这些信号包含了大部分的翻译起始位点。接下来,我们采用WMM找出与该ATG对应的GT信号并将它们之间的序列提出(这里ATG信号以及GT信号的定义详见正文)。通过引入模糊词汇的概念,我们发现翻译起始位点前存在某些模糊词汇,这样可以通过判断ATG信号前是否含有某个“模糊词汇”进一步选出待定ATG信号。最终我们结合了佘振苏教授提出的以统计语言学为特色的多元熵距离(multivariate entropy distance,MED)方法【2】对这些ATG信号对应的阅读框在20维空间中进行多中心聚类形成了预测翻译起始位点的完整算法并达到了较好的结果。 1 引言 2001年2月,人类基因组计划的相关组织和机构公布了人类基因组测序草图【3】,人类基因组计划的提前完成,基因组的研究热点已转向揭示基因信息结构的复杂性与遗传语言的根本规律。其中,基因预测算法的研究也成为对基因组序列进行统计分析的重要目标。所谓基因预测,就是在对DNA序列编码潜能(coding potentials)提出某种模式(pattern)描述的基础上,对一未知的DNA序列上完整的基因结构进行注释。对于原核生物,由于其基因结构较为简单,在基因组的DNA链上表现为一个编码蛋白质的基因对应为一段连续的开放阅读框(open reading frame,ORF),因此,基因预测的问题也相对简单,本人所在的佘振苏教授研究小组已经在这方面取得了很好的结果【4】。但是对于真核生物,它们的基因结构远比原核生物的复杂,许多基因是断裂基因,间断成外显子(exon)和内含子(intron),并且exon在序列中长度比例极小【5】。生物体通过对剪接位点(Splice Site)的剪接等过程最终

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档