- 29
- 0
- 约1.55万字
- 约 26页
- 2017-06-18 发布于湖北
- 举报
我做的工作就是简单的分类,利用已经有的样例训练出一个模型,然后根据模型来分类未知的数据。这个工作中主要的创新点就是使用集成分类器去预测,可以大大提高预测的准确性,而且使用RNAfold特征提取方法,大大减少了时间耗费。 * 下面介绍miRFam使用n-gram的特征提取方法 由于miRNA只有四个碱基,miRFam使用4个唯一的unigram,42个唯一的bigram,43个唯一的trigram,一共有4+42+43 =84个特征( A,C,G,U,AA,AC,AG,AU,CA,CC,CG,CU……) miRFam使用集中系数的概念来把这些不同的特征整合成一个特征向量,首先,定义类型i的唯一n-gram的数量用Ni表示,类型i的集中系数就是: Ci =Ni/∑3j=1Nj , i=1,2,3 当然我么可以得到: C1=4/4+16+64=0.048 C2=16/4+16+64=0.190 C3=64/4+16+64=0.762 然后特征向量可以通过下面的公式计算: fj = tj/Ti*Ci, 1=j=84 其中,tj是某一种类型i的唯一的n-gram的出现频率,Ti是类型i的所有的唯一n-gram的出现频率。特征向量包含84维,每一维对应于某一种类型i (i =1,2,3,4)的一种n-gram。 * The three layers prediction metho
您可能关注的文档
最近下载
- 建侠加固表格1:预制空心板加固简化计算.xlsx VIP
- (高清版)DB37∕T 3499-2019 ‘青皮’无花果质量要求.pdf VIP
- 食品添加剂应用技术 常用香精 香精.ppt VIP
- 部编人教版八年级上册历史全册新优质教学课件(配2025年秋改版教材).pptx
- 劳动最光荣中班社会活动.pptx VIP
- 国家综合性消防救援队伍 2023 年消防员招录 体能测试、 岗位适应性测试项目 及标准.docx VIP
- 卷烟制造工艺卷烟厂设计.pptx VIP
- 2026年山东省中考统考数学模拟试卷四套含答案.pdf VIP
- 2026年最新小学苏教版五年级数学下册期中试卷附答案.docx VIP
- 中国矿业大学《大学英语A4》2024 - 2025学年第一学期期末试卷(全网独发).docx VIP
原创力文档

文档评论(0)