改进的rna-seq数据转录组表达分析研究-study on improved rna - seq data transcriptome expression analysis.docx
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进的rna-seq数据转录组表达分析研究-study on improved rna - seq data transcriptome expression analysis
承诺书本人声明所呈交的硕士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本承诺书)作者签名:日期:摘要高通量测序技术,RNA-Seq,是近年来用于转录组研究的一种新技术,相比于传统分析方法而言,RNA-Seq具有具有信噪比高、分辨率高、所需样本少等优势,然而这种技术在转录组分析中也存在着读段多源映射以及读段分布不均匀等挑战。本文针对RNA-Seq技术在转录组表达分析研究中存在的难点,提出一个改进的转录组表达研究方法,NLDMseq模型,来计算基因和异构体表达值。模型引入隐含变量来表示异构体,模拟了RNA-Seq读段的产生过程。利用注释信息获得异构体的结构矩阵、读段比对结果的分析统计作为模型的输入,通过变分EM算法对模型进行求解,得到了异构体在转录过程中的表达比重,解决了读段模糊匹配问题。模型中通过对异构体和外显子上的读段测序规律进行建模,来解决读段的非均匀分布问题。另外,NLDMseq模型考虑到了噪声读段和结合区读段,通过引入“伪外显子”和“伪转录本”分别处理结合区读段和噪声读段,使得对读段的处理更为合理,减小了现有一些方法由于没有考虑结合区读段与噪声读段所带来的计算误差。采用真实数据和模拟数据来验证NLDMseq模型的准确性和可靠性,并和目前主流方法在表达值计算精度和计算效率方面进行了比较分析。结果表明,NLDMseq模型在基因和异构体表达水平上都获得了较高的计算精度。最后,论文将NLDMseq模型应用到差异基因检测上,NLDMseq模型获得了具有竞争力的实验结果,表明了NLDMSeq模型在后续差异分析中的有效性。本文的模型已经开发成软件NLDMseq,所有源码均放在开源平台GitHub上,可供相关研究者下载使用。关键词:RNA-Seq,转录组表达,多源映射,产生式模型,非均匀性iABSTRACTThehigh-throughputsequencingtechnology,RNA-Seq,hasbeenwidelyusedtoquantifygeneandisoformexpressioninthestudyoftrancriptomeinrecentyears.Comparedwithtraditionalmethods,RNA-Seqhasmanyadvantages,suchashighersignal-to-noiseratio,higherresolutionandlesssamplerequirement.However,theanalysisofRNA-Seqdatastillfacesseriouschallenges,suchasambiguousmappingofreadstoreferencetranscriptomeandnon-uniformityofreaddistributionalongthereferencetranscriptome.Weproposealatentvariablemodel,NLDMseq,toestimategeneandisoformexpression.Ourmethodadoptslatentvariablestomodeltheunobservedisoform,fromwhichreadsoriginate.Accordingtotheannotationfileandmappingresults,wegettheinputofthemodel.ThemodelisworkedoutviaavarialtionalEMalgorithm.Theisoform-andexonspecificreadssequencingbiasesaremodeledtoaccoutforthenon-uniformityofreaddistribution.Besides,byintroducingpseudo-exonandpseudo-transcript,theconjunctionreadsandnoisereadsgainpropertreatments,reducingtheerrorscausedbynoisereadsandsplicedjunctions.Weemploythreerealdatasetsandasimulationdatasettoverifytheperformanceofourmethodintermsofaccur
您可能关注的文档
- 分布式多主体仿真技术及应用分析-distributed multi-agent simulation technology and its application analysis.docx
- 分布式多智能体系统一致性问题分析-analysis of consistency problem in distributed multi-agent system.docx
- 分布式电源接入配电网对闪变响应及闪变传递计算-calculation of flicker response and flicker transmission of distributed power access distribution network.docx
- 分布式发电系统中储能装置配置的分析-analysis of energy storage device configuration in distributed generation system.docx
- 分布式废水处理体系的设计分析-design and analysis of distributed wastewater treatment system.docx
- 分布式发电系统的短期发电预测分析-short - term power generation forecasting analysis of distributed power generation system.docx
- 分布式非结构化文本数据安全分析系统-distributed unstructured text data security analysis system.docx
- 分布式高速网络入侵检测系统研究与实现-research and implementation of distributed high-speed network intrusion detection system.docx
- 分布式分层虚拟网映射机制分析-analysis on mapping mechanism of distributed hierarchical virtual network.docx
- 分布式工作流引擎3m eprocess的设计和实现-design and implementation of distributed workflow engine 3m eprocess.docx
- 人教版数学九年级上册《 二次函数》说课稿(共19张PPT).ppt
- 人教版八年级上册 12.2.2三角形全等的判定 “边角边”判定三角形全等 (共22张PPT).ppt
- 人教版初中数学2011课标版八年级上册第十二章12.2 三角形全等的判定 课件(共16张PPT).ppt
- 人教版九年级第十单元课题1浓硫酸1 (共18张PPT).ppt
- 人教版初中数学七年级上册 1.4 有理数的乘除法(共22张PPT).ppt
- 人教版八年级物理上册第1章 第2节运动的描述习题课件(共20张PPT).ppt
- 人教版九年级课题2酸和碱之间会发生什么反应(共21张PPT).ppt
- 人教版初中物理2011课标版 九年级 第十八章 电功率第三节 测量小灯泡的电功率(共25张PPT).pptx
- 人教版初中数学2011课标版九年级上册第二十四章24.1圆的有关性质(共17张PPT).ppt
- 人教版初中数学2011课标版九年级上册21.2解一元二次方程(共22张PPT).pptx
原创力文档


文档评论(0)