基于阶乘矩及时间序列方法识别人类基因编码区研究.pdfVIP

  • 4
  • 0
  • 约1.15万字
  • 约 6页
  • 2017-12-29 发布于广东
  • 举报

基于阶乘矩及时间序列方法识别人类基因编码区研究.pdf

基于阶乘矩及时间序列方法识别人类基因编码区膏 高婷婷 彭志红 陈杰 刘毅 (北京理工大学,自动控制系,北京100081) gttel23@sina.corn 三种长度外显子为对象,运用阶乘矩和时间序列方法将生物位点特征、统计特征相结合,在 较高精度上识别外显子特别是较长和较短的外显子。通过使外显子与内含子差异最大的 子序列的阶乘矩,突显外显子和内含子统计特性差别。再采用时间序列Time-Delay embedding方法将得到的数据展开成二维空间,进一步突出统计特性差异,并在第三维空间 加入生物位点特征。最后用贪婪算法进行聚类,得到短外显子sn为0.70,平均长度外显子 Sn为0.92,长外显子sn为0.78。本项目研究结果在保证一般长度外显子识别精度的同时 解决目前对较长及较短外显子识别精度普遍低下的问题,有较高的精度和较强的学习能力。 关键词:编码区外显子阶乘矩时间序列k=tuple特征量 and FactorialiMomentbased Time-DelayEmbedding 。Human.Genome Identification* CodingRegion Crao Yi Iie,Lin Tingting,PengZhihong.Chen ofInformationScienceand College Technology, Institute China Beijing ofTechnology,B;eijing,100081,P.R 86—010-6891246911gttdl23@sina.com‘ on new Factorial Abstract:Basedstatisfical patternrecognition,aalgoiithm,whichemploys functionalsitesandexonsforhuman Moment@峋andTime-Delayembedding.forrecognizing isintroduced:FirStof is tODNA tO、‘obfionFMfeature genome all,--k-tupleapplied sequence variant.Then.threekindsof and forFMinordertOfmd windOws,50bp,lOObp200bp,are,chosen short(50bp),middle(aroundlOObp)and dismissesthe results introducesthethird Time·Delay fuzzy broughtby‘FM,and embcdding adds searchisthen tOsearch dimension,which biologioalcharacters.Finally,G

文档评论(0)

1亿VIP精品文档

相关文档