基于特征向量的宏基因组测序序列分类算法研究-计算机应用技术专业论文.docx

下载文档 降价啦

2
0
约6.94万字
约 77页
2019-03-28 发布于上海
举报
版权申诉
保障服务

基于特征向量的宏基因组测序序列分类算法研究-计算机应用技术专业论文.docx

1、本文档共77页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

研究生优秀毕业论文万方数据万方数据中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名： j氐遮签字日期：印i!)_r孑厂中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。 | 甩公开口保密(——年) 作者签名：：暨墅1氐导师签名：主拿童签字日期： 2蕾j寸．丁．2y 签字目期：2竺!查!生：婴万方数据万方数据摘要摘要摘要摘要宏基因组测序序列分类问题是宏基因组学研究的一个重点问题。用实验方法进行分类代价高且速度慢，故利用分类算法进行分类的计算手段成为了一种趋势。主流的分类算法有基于比对的和基于结构的两类方法，前者需要和己知基因组进行比对，后者只需要特征向量信息即可。然而后者在低分类层次上的分类精度仅为60％左右，并且在大规模数据集上的时间开销也太大。基于结构的分类算法又有有监督和无监督之划分，我们研究基于结构的有监督分类算法。本文设计针对宏基因组数据的特征向量提取方法，提出面向多物种、低分类层次的高精度快速宏基因组分类算法。主要工作包括： 1．宏基因组数据的特征向量提取方法针对宏基因组测序序列的结构特点，结合马尔可夫模型的概率转移矩阵性质，提出了一种基于马尔可夫模型的特征提取方法，得到了关于测序序列的特征向量集，验证了新提取的特征向量在不同的测序物种之间的区分特性，应用基于互信息选择的降维方法对特征向量进行降维处理。将新提出的方法和基于 k-mer频率信息的特征提取方法应用到LIBSVM分类算法中，进行分类性能比较。实验结果表明，LIBSVM算法使用新方法产生的特征向量比使用基于k-mer 频率信息产生的特征向量在分类精度上高出2％～3％，且分类运行时间也提高了 4～5倍。 2．基于特征向量的SVM分类算法MarkovBinning 首先，对己知物种的特征向量集进行预处理，过滤掉噪声数据。我们定义了一种新的相似性度量方法KLDist距离，计算出中心特征向量进行噪声数据过滤，将过滤后的特征向量集作为SVM算法的初始训练集。为了加快训练过程，采用变步长的网格搜索法，改进了关于惩罚系数C和核函数参数，，的最优参数对(C，y)的寻优方法。最后，使用提出的MarkovBinning算法对测序序列进行分类。实验结果表明，与TACOA算法、AbundanceBin算法和MetaCluster算法相比，我们的算法在分类精度上平均高出10％，且算法运行时间明显减少。关键词：测序序列特征向量马尔可夫模型降维参数优化SVM算法摘要 II AbstractABSTRACT Abstract ABSTRACT Metagenomic sequence binning is a fundamental question for metagenomic studies．The experimental methods require hi曲operating cost and slow speed for classify massive sequences．Therefore，computing methods which use binning algorithms have been a new trend for binning these sequences．Main binning algorithms may be classified as alignment-based or composition-based methods． Since the former needs the whole sequence information of known genome for alignment，the latter only needs feature vector information．However,existing composition—based method