- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LDA模型和MDS算法多基因组可视化
基于LDA模型和MDS算法多基因组可视化
摘 要:面向多基因组的研究,以建模多个体关系和比较个体差异为主要研究内容。多基因组可视化可以帮助研究者依据多个体关系,有目的地分析、比较多基因组之间的差异。多个基因组遗传变异层面的比较,因为变异数量巨大、并且绝大部分变异并无信息性,故而很难在有限的显示空间内可视化。本文根据多基因组可视化的需求,分析了多基因组可视化的数据降维策略,提出了基于LDA模型及KL散度的多基因组相似度求解方法,建立了基于MDS算法的多基因组可视化降维方法,并使用千人基因组第三阶段的基因组变异数据,验证上述方法的可靠性。
关键词:可视化;多基因组;LDA模型;MDS算法
中图分类号:TP18 文献标识号:A 文章编号:2095-2163(2015)01-
Abstract: Multiple genome research focuses on modelling multiple individual relationships and comparing individual differences. Visualization of multiple genomes can help researchers to analyze and compare differences among multiple individual genomes intuitively. However, multiple genomes are difficult to be visualized in limited displaying space owing to the huge number of variants. And most of genome variants are less informative. This paper analyzed the data dimension reducing strategy for multiple genome visualization, proposes multiple genome similarity solving algorithm based on LDA model and KL-divergence, and designs multiple genome visualization dimention reducing method. The phase3 datasets of 1000 genomes project are used to verify the effectiveness and reliability of the above methods.
Keywords: Visualization; Multiple Genomes; LDA model; MDS Algorithm
0 引言
近年来随着个体基因组测序的普及,测序的个体基因组数量大大增加,基于多个个体基因组数据的研究也日渐增多。遗传学、人类学、社会学等许多学科都高度重视对人群的研究,早期的HapMap计划[1]就有意识地搜集世界各地不同人群的基因组数据,作为其延续,2014年年中,千人基因组计划公开发布了第三阶段的数据,共包括属于5个超级人群、26个人群的2 504个个体的基因组变异数据。在遗传疾病的研究中,对多个疾病样本与多个正常样本的基因组进行比照分析、对多个疾病亚型的样本基因组进行测试分析,均为常见的科学手段。因此,同时对多个个体的基因组进行比较、分析即已成为生命科学和医学研究中的重要需求。多基因组可视化能够显著提升多个个体基因组的比较和分析效率,也是重要的研究课题。
多基因组可视化并非多个个人基因组可视化的简单集成,特别是当需要可视化的个人基因组数量较多时,简单集成的方法无法直观地表达多个基因组之间的异同。多基因组可视化关注的是多个基因组之间的关系,也并非是基因组的一般性特征,这又不同于一般性的基因组可视化。多个基因组遗传变异层面的比较,因为变异数量巨大、并且绝大部分变异并无信息性,故而很难在有限的显示空间内可视化,也即使研究者很难从大量变异数据中筛选出重要的变异。通过帮助研究者们查看多个基因组在遗传变异层面的比较结果,并且寻找多个基因组中对研究有用的变异,则是多基因组可视化的主要目的。
本文根据多基因组可视化的需求,探讨了多基因组可视化面临的主要问题,分析了多基因组可视化的数据降维策略;提出了基于LDA模型及KL散度的多基因组相似度求解方法,其中,LDA模型由于可以给出相似基因组之间的共同潜在特征相关的变异列表和概率分布,将更加有利于对研究者所关心的变异进行识别;并且建立了基于MDS算法的
您可能关注的文档
- 基于JSP和Servlet数字校园文化系统设计与实现.doc
- 基于JSP和Struts2Web新闻发布系统设计与开发.doc
- 基于JSP在线考试系统设计与实现_000002.doc
- 基于JSP大学城外卖网设计与实现.doc
- 基于JSP实验室题库系统开发研究.doc
- 基于JSP客户关系管理系统分析与设计.doc
- 基于JSP影院售票系统设计与实现.doc
- 基于JSP技术中数据库开发应用.doc
- 基于JSP技术医药网站设计与实现.doc
- 基于JSP技术实现体育用品管理系统.doc
- 四川省仪陇县2026届英语九上期末教学质量检测模拟试题含解析.doc
- 2026届辽宁省大连沙河口区六校联考九年级化学第一学期期中综合测试模拟试题含解析.doc
- 山东省淄博市临淄区第一中学2026届九年级英语第一学期期末教学质量检测试题含解析.doc
- 《开学第一课》优秀PPT课件.pptx
- 糖尿病肾病患者的液体管理与护理.ppt
- 《开学第一课》优秀PPT课件.pptx
- 2026届山东省济南市市中学区五校联考九上化学期中质量跟踪监视试题含解析.doc
- 江西省赣州市大余县2026届九年级化学第一学期期中考试模拟试题含解析.doc
- 2026届四川省成都市双流黄甲中学九年级英语第一学期期末学业水平测试模拟试题含解析.doc
- 陕西省咸阳市秦都区咸阳市实验中学2026届英语九年级第一学期期末经典模拟试题含解析.doc
最近下载
- 基于核心素养的高中数学单元作业设计研究——以函数的概念与性质为例.pdf
- 2022北京朝阳区初二(上)期末考试语文试卷及答案.docx VIP
- 一只想飞的猫PPT课件.pptx VIP
- 《变色龙》(契诃夫)ppt课件完美版.pptx VIP
- 住建部GB 55038-2025《住宅项目规范》核心要点解读.pptx VIP
- 院内按病种分值付费(DIP)专题培训.ppt VIP
- 土壤环境背景值.pdf VIP
- 如何获取乳内动脉教案.ppt VIP
- Unit5 Fun Clubs Section A Grammar Focus课件 人教版(2024)七年级英语上册.pptx VIP
- 【宏观专题】黄金的“非寻常”定价-240531.pdf VIP
原创力文档


文档评论(0)