- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于机器学习miRNA靶基因预测算法研究概况
基于机器学习的miRNA靶基因预测算法研究概况
摘要:首先小结目前所发现的miRNA:mRNA对的统计特征,然后对基于机器学习的各类靶基因预测算法逐一作研究,最后对现有靶基因预测算法的研究现状及优缺点给出系统的结论。
关键词:microRNAs;靶基因预测;生物信息学;RNA干扰
中图分类号:TP312文献标识码:A文章编号:1672?7800(2011)012?0047?02
作者简介:陈功(1990-),男,安徽安庆人,苏州大学计算机学院本科生,研究方向为机器学习;周小科(1976-),男,江西上饶人,博士,苏州大学计算机学院讲师,研究方向为生物信息。1miRNA靶标统计特征
学界虽然对于miRNA靶标识别机制未了解清楚,但基本认为miRNA通过与mRNA 3UTR绑定实现对靶基因调节,如图1所示。①绑定点位序列有明显遗传保守性;②绑定区内特征。从miRNA:Site构成杂合结构内部来看,最重要特征是种子区匹配往往很精确;③绑定区上下文特征。miRNA:Site绑定的程度与绑定区的上下文有关;④绑定点的开放性。mRNA在由核苷组成的一级结构顺序基础上,可在自身核苷间化学键作用下通过自身回折形成碱基配对茎区以及茎区之间不配对环区和末端单链区等复杂二级结构;⑤绑定点位置特征。绑定偏好存在于3UTR两端,但不会太靠近5端终止子处。
图1miRNA:Target绑定结构
由于已知靶标数目有限,而预测结果不精确,因此上述特征不全面且易导致偏倚。
2各类机器学习靶基因预测算法
2.1PicTar
PicTar认为基因3UTR序列是由miRNA绑定点及背景序列组成。在考虑一个UTR被M个miRNA同时作用的情况时,该隐马尔科夫模型有1+M个隐含状态,状态间概率为pi,?i∈{0,…,m} ,p0表示转换为背景序列的概率,pi?i∈{1,…,m}表示从当前状态到第i个miRNA绑定点位的概率。当某miRNA绑定点位状态被选择,代表miRNA绑定点位7nt或8nt长的序列会被产生,而此绑定点位是完全种子匹配的概率为p,非完全种子匹配的概率为1-p;否则会产生碱基以表示转移到背景序列状态。PicTar利用Baum?Welch算法来计算3UTR序列是由此隐马尔科夫模型产生的最大似然概率。
2.2miTarget
miTarget基于SVM。为训练miTarget,从各种已??表学术文献中收集152对阳性miRNA:Site和83对阴性miRNA:site,为增加阴性数据集数量,从let-7:lin41、let-7:lin-28提取出113个阴性miRNA:Site。对任一miRNA:Site对,miTarget将其首尾相连形成单链序列,利用RNAfold产生此序列的二级结构以代表miRNA和site绑定结构。基于此绑定结构,观察第1~20nt的匹配状态,提取20个基于位置的特征,通过分析种子区、非种子区以及整个绑定区的匹配、错配、其它匹配状态以及各区域绑定能等共21个基于区域的特征,miRNA:Site表示为一个包含41个特征的特征向量。
2.3RNA22
RNA22是2006年开发的算法。首先利用Rfam3.0中354个miRNA序列为训练集,利用Teiresias算法从中发挖长度可变的模序。其次以3-nt模组为最小单位,统计出现频率。随后RNA22假设二阶马尔科夫链是将3-nt模组“组装”成模序的引擎,并基于此假设计算每个模序的存在概率。
2.4GenMiR
GenMiR发布于2007年,现有GenMiR、GenMiR++、GenMiR3 3个版本,基本思想是在其它基于序列的算法预测结果的基础上,建立贝叶斯生成模型以反映miRNA对其靶标的调控作用,根据mRNA和miRNA表达水平数据推断靶基因。其推论基于两条假设:①特定组织内,mRNA有相同背景表达水平;②miRNA会下调其靶基因的表达水平,且多个miRNA共同作用于一个靶基因时,对表达水平的影响是单独影响的线性叠加。如给定G个mRNA和K个miRNA,用eqt、vkt和ut表示在组织t中,mRNA g、miRNA k和背景的表达水平,并令vt=[v1t,…,vkt]T,从而上述两个假设可被表示为(1)式:p(eqt|μ1,βq,λ,γt,vt,σ2t)=
N(μt-γtλβqm,σ2t)(1)其中βg∈{0,1}k×1 是一个指示向量,其中第k个元素βgk=1表示基因g是miRNA k的靶基因;λ∈Rk×1+表示调控权重;Ba=diag(βa);γt是对不同组织中基因表达值进行标准化的变尺度因子;σ2t是高斯模型的方差。
2.5mirTarget
mirT
文档评论(0)