改进的rna-seq数据转录组表达分析研究-study on improved rna - seq data transcriptome expression analysis.docx

下载文档 降价啦

8
0
约9.85万字
约 108页
2018-05-29 发布于上海
举报
版权申诉
保障服务

改进的rna-seq数据转录组表达分析研究-study on improved rna - seq data transcriptome expression analysis.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

改进的rna-seq数据转录组表达分析研究-study on improved rna - seq data transcriptome expression analysis

承诺书本人声明所呈交的硕士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本承诺书）作者签名：日期：摘要高通量测序技术，RNA-Seq，是近年来用于转录组研究的一种新技术，相比于传统分析方法而言，RNA-Seq具有具有信噪比高、分辨率高、所需样本少等优势，然而这种技术在转录组分析中也存在着读段多源映射以及读段分布不均匀等挑战。本文针对RNA-Seq技术在转录组表达分析研究中存在的难点，提出一个改进的转录组表达研究方法，NLDMseq模型，来计算基因和异构体表达值。模型引入隐含变量来表示异构体，模拟了RNA-Seq读段的产生过程。利用注释信息获得异构体的结构矩阵、读段比对结果的分析统计作为模型的输入，通过变分EM算法对模型进行求解，得到了异构体在转录过程中的表达比重，解决了读段模糊匹配问题。模型中通过对异构体和外显子上的读段测序规律进行建模，来解决读段的非均匀分布问题。另外，NLDMseq模型考虑到了噪声读段和结合区读段，通过引入“伪外显子”和“伪转录本”分别处理结合区读段和噪声读段，使得对读段的处理更为合理，减小了现有一些方法由于没有考虑结合区读段与噪声读段所带来的计算误差。采用真实数据和模拟数据来验证NLDMseq模型的准确性和可靠性，并和目前主流方法在表达值计算精度和计算效率方面进行了比较分析。结果表明，NLDMseq模型在基因和异构体表达水平上都获得了较高的计算精度。最后，论文将NLDMseq模型应用到差异基因检测上，NLDMseq模型获得了具有竞争力的实验结果，表明了NLDMSeq模型在后续差异分析中的有效性。本文的模型已经开发成软件NLDMseq，所有源码均放在开源平台GitHub上，可供相关研究者下载使用。关键词：RNA-Seq，转录组表达，多源映射，产生式模型，非均匀性iABSTRACTThehigh-throughputsequencingtechnology,RNA-Seq,hasbeenwidelyusedtoquantifygeneandisoformexpressioninthestudyoftrancriptomeinrecentyears.Comparedwithtraditionalmethods,RNA-Seqhasmanyadvantages,suchashighersignal-to-noiseratio,higherresolutionandlesssamplerequirement.However,theanalysisofRNA-Seqdatastillfacesseriouschallenges,suchasambiguousmappingofreadstoreferencetranscriptomeandnon-uniformityofreaddistributionalongthereferencetranscriptome.Weproposealatentvariablemodel,NLDMseq,toestimategeneandisoformexpression.Ourmethodadoptslatentvariablestomodeltheunobservedisoform,fromwhichreadsoriginate.Accordingtotheannotationfileandmappingresults,wegettheinputofthemodel.ThemodelisworkedoutviaavarialtionalEMalgorithm.Theisoform-andexonspecificreadssequencingbiasesaremodeledtoaccoutforthenon-uniformityofreaddistribution.Besides,byintroducingpseudo-exonandpseudo-transcript,theconjunctionreadsandnoisereadsgainpropertreatments,reducingtheerrorscausedbynoisereadsandsplicedjunctions.Weemploythreerealdatasetsandasimulationdatasettoverifytheperformanceofourmethodintermsofaccur