基于LDA模型和MDS算法多基因组可视化.docVIP

下载本文档

12
0
约7.14千字
约 13页
2018-08-28 发布于福建
举报
版权申诉

基于LDA模型和MDS算法多基因组可视化.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LDA模型和MDS算法多基因组可视化

基于LDA模型和MDS算法多基因组可视化　　摘要：面向多基因组的研究，以建模多个体关系和比较个体差异为主要研究内容。多基因组可视化可以帮助研究者依据多个体关系，有目的地分析、比较多基因组之间的差异。多个基因组遗传变异层面的比较，因为变异数量巨大、并且绝大部分变异并无信息性，故而很难在有限的显示空间内可视化。本文根据多基因组可视化的需求，分析了多基因组可视化的数据降维策略，提出了基于LDA模型及KL散度的多基因组相似度求解方法，建立了基于MDS算法的多基因组可视化降维方法，并使用千人基因组第三阶段的基因组变异数据，验证上述方法的可靠性。　　关键词：可视化；多基因组；LDA模型；MDS算法　　中图分类号：TP18 文献标识号：A 文章编号：2095-2163（2015）01- 　　Abstract： Multiple genome research focuses on modelling multiple individual relationships and comparing individual differences. Visualization of multiple genomes can help researchers to analyze and compare differences among multiple individual genomes intuitively. However， multiple genomes are difficult to be visualized in limited displaying space owing to the huge number of variants. And most of genome variants are less informative. This paper analyzed the data dimension reducing strategy for multiple genome visualization， proposes multiple genome similarity solving algorithm based on LDA model and KL-divergence， and designs multiple genome visualization dimention reducing method. The phase3 datasets of 1000 genomes project are used to verify the effectiveness and reliability of the above methods. 　　Keywords： Visualization； Multiple Genomes； LDA model； MDS Algorithm 　　0 引言　　近年来随着个体基因组测序的普及，测序的个体基因组数量大大增加，基于多个个体基因组数据的研究也日渐增多。遗传学、人类学、社会学等许多学科都高度重视对人群的研究，早期的HapMap计划[1]就有意识地搜集世界各地不同人群的基因组数据，作为其延续，2014年年中，千人基因组计划公开发布了第三阶段的数据，共包括属于5个超级人群、26个人群的2 504个个体的基因组变异数据。在遗传疾病的研究中，对多个疾病样本与多个正常样本的基因组进行比照分析、对多个疾病亚型的样本基因组进行测试分析，均为常见的科学手段。因此，同时对多个个体的基因组进行比较、分析即已成为生命科学和医学研究中的重要需求。多基因组可视化能够显著提升多个个体基因组的比较和分析效率，也是重要的研究课题。　　多基因组可视化并非多个个人基因组可视化的简单集成，特别是当需要可视化的个人基因组数量较多时，简单集成的方法无法直观地表达多个基因组之间的异同。多基因组可视化关注的是多个基因组之间的关系，也并非是基因组的一般性特征，这又不同于一般性的基因组可视化。多个基因组遗传变异层面的比较，因为变异数量巨大、并且绝大部分变异并无信息性，故而很难在有限的显示空间内可视化，也即使研究者很难从大量变异数据中筛选出重要的变异。通过帮助研究者们查看多个基因组在遗传变异层面的比较结果，并且寻找多个基因组中对研究有用的变异，则是多基因组可视化的主要目的。　　本文根据多基因组可视化的需求，探讨了多基因组可视化面临的主要问题，分析了多基因组可视化的数据降维策略；提出了基于LDA模型及KL散度的多基因组相似度求解方法，其中，LDA模型由于可以给出相似基因组之间的共同潜在特征相关的变异列表和概率分布，将更加有利于对研究者所关心的变异进行识别；并且建立了基于MDS算法的