个人总结和展望.pptVIP

  • 29
  • 0
  • 约1.55万字
  • 约 26页
  • 2017-06-18 发布于湖北
  • 举报
我做的工作就是简单的分类,利用已经有的样例训练出一个模型,然后根据模型来分类未知的数据。这个工作中主要的创新点就是使用集成分类器去预测,可以大大提高预测的准确性,而且使用RNAfold特征提取方法,大大减少了时间耗费。 * 下面介绍miRFam使用n-gram的特征提取方法 由于miRNA只有四个碱基,miRFam使用4个唯一的unigram,42个唯一的bigram,43个唯一的trigram,一共有4+42+43 =84个特征( A,C,G,U,AA,AC,AG,AU,CA,CC,CG,CU……) miRFam使用集中系数的概念来把这些不同的特征整合成一个特征向量,首先,定义类型i的唯一n-gram的数量用Ni表示,类型i的集中系数就是: Ci =Ni/∑3j=1Nj , i=1,2,3 当然我么可以得到: C1=4/4+16+64=0.048 C2=16/4+16+64=0.190 C3=64/4+16+64=0.762 然后特征向量可以通过下面的公式计算: fj = tj/Ti*Ci, 1=j=84 其中,tj是某一种类型i的唯一的n-gram的出现频率,Ti是类型i的所有的唯一n-gram的出现频率。特征向量包含84维,每一维对应于某一种类型i (i =1,2,3,4)的一种n-gram。 * The three layers prediction metho

文档评论(0)

1亿VIP精品文档

相关文档