3科技出版物专利文献和医药卫生服务信息化产生的大数据.PPT

3科技出版物专利文献和医药卫生服务信息化产生的大数据.PPT

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3科技出版物专利文献和医药卫生服务信息化产生的大数据

药物分子设计中的大数据问题 药物分子设计中的大数据问题 信息技术进展 2015 主讲人: 廖俊 introduction 药物创新领域的大数据主要来源于高通量实验、高效能模拟计算、信息化、科技出版物和专利文献4个方面. 这些大数据使我们有可能在系统层面上看到药物分子与许多靶标相互作用的新现象、新规律, 提高药物创新的效率, 也带来新的挑战, 如存储、标引/标注和质控、可视化、数据挖掘和计算复杂度等问题. 这些问题可以通过在超算和云服务技术的支持下发展并行计算方法而逐渐得到解决. 从离散、不完备且信噪比低的大数据中难以找到物质活性与结构之间的连续函数关系, 贝叶斯学习机及其与支持向量机、决策树技术的组合是大数据挖掘的发展方向. 大数据既是科学实验通量化和社会信息化的结果又是原因, 正确解决大数据挖掘问题是提高药物创新效率的核心. 概 述 目录 1 2 3 4 用于生物医药研究的大数据来源 展望 大数据给药物分子设计带来的机遇和挑战 药物分子设计需要的大数据处理新工具 用于生物医药研究的大数据来源 大数据来源 高通量科学实验产生的大数据 1 高效能计算模拟科学实验产生的大数据 2 3 科技出版物、专利文献和医药卫生服务信息化产生的大数据 1.1高通量科学实验产生的大数据 靶标研究 基因组学 转录组学 蛋白组学 代谢组学 表型组学 化合物创新 红外、紫外、核磁共振、质谱、色谱、晶体结构等实验数据 存储空间越来越大 数据格式越来越多 小分子性能测试 产生巨量的基于芯片的测试数据和图像数 据, 对这些数据的正确处理决定了药物发现的成败 1.2高效能计算模拟科学实验产生的大数据 天河1号、天河2号 1 计算机辅助药物设计(CADD) 2 3 分子动力学(molecular dynamics)模拟 1.3 科技出版物、专利文献和医药 卫生服务信息化产生的大数据 科技出版物 科技文章超过2400万篇9000多万条小分子 化合物数据 7510万化学反应和 合成制备方法 6578万个生物大分子 序列 专利文献 世界知识产权组织 德温特世界专利索引 PubMed数据库 医药卫生服务 信息化 13亿人产生的病历数据 包含:文字性数据 诊断性数据 大数据给药物分子设计 带来的机遇和挑战 大数据带来的机遇 使我们有可能在系统层面上看到药物分子与许多靶标相互作用的新现象、新规律 1 超算能力使并行地针对多靶标进行千万级数量小分子的虚拟筛选成为可能 2 3 超算能力还使在更长的时间尺度(0.01~ 10μs)上模拟 药物分子与靶标结合的动力学行为成为可能 提高对化合物和靶标活性构象预测的准确性,开发针对特定人群的特异性药物 4 大数据带来的挑战 1 存储与分享问题 数据量大(TB)“云服务”可解决,但带来知识产权 被侵犯的危险 2 获取与标注问题 自动化的获取与标 注技术精准度差,质量控制成大问题建立合理的质量控制标准势在必行 3 检索(search)问题 拓扑检索、 相似度检索、 语义检索 需要并行化算法、 高效能计算的支持 4 数据格式异质化 分子的结构图以许多不同格式存在 要求分子结构检索引擎能够自动识别分子结构数据的存在状态 5 可视化与数据挖掘 多为分类挖掘 高维数据分类方法主要有簇分析、机器学习、决策树、 贝叶斯方法及它们组合 Please insert title here Please add the title here illustrated text * 药物分子设计需要的 大数据处理新工具 大数据处理新工具 传统的药物设计程序有了并行算法的版本 1 GPU并行处理技术的发展 2 3 超算支持的贝叶斯学习方法 在超算服务器上同时调用上千个CPU 降低了MD并行计算的代价,提高基于配体的虚拟筛选的效率 化合物库的化学稳定性预测、研究分子信号转导网络 展 望 展 望 由于数据文件太大, 很多科学计算可能由于软件或硬件的限制而无法进行; 大数据的信噪比低可能使传统的 数据挖掘程序崩溃,或因为计算复杂度问题而无法完成; 大数据也可能仅仅因为内存不够、或通讯系统的带宽太窄、或读写系统的超高稳定性要求不能满足而导致无法重现的程序崩溃; (4) 大数据生产代价高昂、难以重复, 存在质量隐患, 这样的数据因为占用大量存储空间而维护成本极高, 却难以完成分析而带来效益, 拖累了科技项目的执行; (5) 大数据虽然可能让科技工作者在大系统层面发现新的规律,但由于缺少数据挖掘工具、或不正确地使用数据挖掘工具而得到误导性结论,这样的结论往往因为证伪困难而令人困扰. 大数据可能对科学研究产生灾难性干扰 解决大数据的这些问题 普及云计算技术 1 加强面

文档评论(0)

zhaoxiaoj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档