rna二级结构预测：基于半监督学习的随机文法模型方法 rna secondary structure prediction：a method based on semi-supervised learning stochastic grammar model.pdfVIP

下载本文档

8
0
约2.85万字
约 5页
2017-11-02 发布于上海
举报
版权申诉

rna二级结构预测：基于半监督学习的随机文法模型方法 rna secondary structure prediction：a method based on semi-supervised learning stochastic grammar model.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

rna二级结构预测：基于半监督学习的随机文法模型方法 rna secondary structure prediction：a method based on semi-supervised learning stochastic grammar model

第 30 卷第 9 期计算机与应用化学 Vol.30, No.9 2013 年 9 月 28 日 Computers and Applied Chemistry September 28, 2013 RNA 二级结构预测：基于半监督学习的随机文法模型方法 1* 1 2 唐四薪，赵辉煌，周勇 (1. 衡阳师范学院计算机科学系，湖南，衡阳，421002； 2. 衡阳师范学院数学与计算科学系，湖南，衡阳，421002) 摘要：传统随机文法模型预测 RNA 二级结构需要寻找足够多的相关序列样本，这限制了该方法的实际应用。为有效利用大量未标注的 RNA 序列进行结构预测，将半监督学习方法融入到随机文法模型中，采用少量已标注的 RNA 样本和大量未标注样本作为预测模型的训练集。设计了基于 EM 算法的半监督学习预测模型，该模型将基于产生式方法的 SCFG 模型作为分类器，通过训练对未标记的 RNA 序列进行标注，再将已标注的序列逐步合并到已标记样本集中，并能够调节已标记样本和未标记样本所占的比例，最后输出结构标签序列。实验结果表明，通过对多种混合了已标注和未标注 RNA 序列集的测试，验证了该方法可有效地利用未标注序列数据，大大降低了对已标注序列样本的需求数量，提高了预测精度，并测试了掺入不同的未标记序列数量对模型预测性能的影响。关键词：半监督学习；RNA ；二级结构；随机文法模型中图分类号：TP301.2 文献标识码：A 文章编号：1001-4160(2013)09-1038-1042 DOI: 10.11719/com.app.che 1 引言 (stochastic context-free grammar model，SCFG) 采用比较序列分析方法预测 RNA 二级结构[5~6]，这通常需要将结随着近年来生物序列测序技术的快速发展，导致在构未知的待测序列与结构已知的 RNA 序列样本集(通常生物序列数据库中，积累了大量的序列数据。这些序列是与待测序列同源的序列)进行训练，得到每条文法产生数据在一定程度上能帮助我们认识生物序列的功能。但式规则的转移概率，然后计算这一组 RNA 序列中每一列对于非编码 RNA 分子来说，其功能主要由结构决定，因的生成概率，将列的概率进行乘积就得到比对的概率。此更加需要的是 RNA 的结构数据。RNA 二级结构是通过训练得到一棵进化树，使得比对的概率最大，再利 RNA 结构在平面上的表示。预测 RNA 二级结构的重要用进化信息和随机上下文无关文法，找到使每条序列概性表现在很多方面：包括识别 RNA 分子的功能、同源搜率最大的生成规则，即可推导出该序列对应的二级结构。索和 motif 发现[1] 。目前，序列数据的保有量相对于结构这种传统模型由于完全依赖于产生式过程，很难向其中数据来说，多了一个数量级[2] 。因此，如何对RNA 序列加入新的特征，导致可扩展性较差。