“基于高性能计算机群的基因数据库和海量数据挖掘功能开发.doc

“基于高性能计算机群的基因数据库和海量数据挖掘功能开发.doc

  1. 1、本文档共1页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
“基于高性能计算机群的基因数据库和海量数据挖掘功能开发”项目进展 项目具体技术方案和技术路线 在我所6万亿次HP高性能计算机群基础上,使用最新的开源大数据技术建设基因组数据库和进行数据挖掘。在高性能计算机群上添加一个hadoop的平台,首先使用本地硬盘搭建HDFS文件系统,把新的apache hadoop软件平台(包括Hbase, zookeper,hive)搭建在这个文件系统上,用nosql数据库(拟采用hbase)抽取基因组数据建库,同时在这个平台上用mysql或者oracle标准版构建与hbase接口的后端数据库,针对一到两个物种建立基因组数据库。 上述技术方案路线仿制oracle、IBM大数据机的结构,在现有高性能机群建设一个大数据平台,移植一到两个mapreduce生物信息应用程序,建设基于NoSql数据库技术的基因数据库。因为我们现有的高性能机群和oracle大数据机硬件上差别不大,所以主要是软件平台的搭建,购置少量的本地硬盘用于HDFS。 目前已经完成的工作 与某公司达成意向,合作建设大数据平台(目前处于合同细节商定、签署阶段) 基因库于3月中旬到我所当面沟通交流合作事宜 正在进行的工作 大数据技术深入学习、培训阶段(hadoop、hbase) HDFS文件系统搭建阶段 系统硬件购置工作 HBASE安装建设工作 与某公司合作合同洽谈中 项目后续执行计划 2013年9月-10月,完成项目软硬件购置工作、第一期大数据培训课程 2013年10月-11月与某公司工程师陈威、刘凯完成大数据平台第一期建设,包括HDFS、HBASE,相关系统调试工作 2013年12月-2014春节前,完成大数据平台二期建设,包括该公司大数据软件组件的建设、调试、培训 2014年2月-4月,完成大数据平台的全部软硬件建设工作,与厂商合作完成一个mapreduce算法移植工作 2014年4月,赴基因库商谈数据库数据共享事宜 2014年5月-8月,完成一个基因组HBASE数据库建设 2014年7月-10月,大数据平台和HBASE数据库的应用软件开发移植 2014年10月-12月,项目缓冲时间

文档评论(0)

189****8659 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档