“基于高性能计算机群的基因数据库和海量数据挖掘功能开发.doc

下载文档 降价啦

1
0
约小于1千字
约 1页
2021-02-27 发布于湖南
举报
版权申诉
保障服务

“基于高性能计算机群的基因数据库和海量数据挖掘功能开发.doc

1、本文档共1页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

“基于高性能计算机群的基因数据库和海量数据挖掘功能开发”项目进展项目具体技术方案和技术路线在我所6万亿次HP高性能计算机群基础上，使用最新的开源大数据技术建设基因组数据库和进行数据挖掘。在高性能计算机群上添加一个hadoop的平台，首先使用本地硬盘搭建HDFS文件系统，把新的apache hadoop软件平台(包括Hbase, zookeper，hive）搭建在这个文件系统上，用nosql数据库（拟采用hbase）抽取基因组数据建库，同时在这个平台上用mysql或者oracle标准版构建与hbase接口的后端数据库，针对一到两个物种建立基因组数据库。上述技术方案路线仿制oracle、IBM大数据机的结构，在现有高性能机群建设一个大数据平台，移植一到两个mapreduce生物信息应用程序，建设基于NoSql数据库技术的基因数据库。因为我们现有的高性能机群和oracle大数据机硬件上差别不大，所以主要是软件平台的搭建，购置少量的本地硬盘用于HDFS。目前已经完成的工作与某公司达成意向，合作建设大数据平台（目前处于合同细节商定、签署阶段）基因库于3月中旬到我所当面沟通交流合作事宜正在进行的工作大数据技术深入学习、培训阶段（hadoop、hbase） HDFS文件系统搭建阶段系统硬件购置工作 HBASE安装建设工作与某公司合作合同洽谈中项目后续执行计划 2013年9月-10月，完成项目软硬件购置工作、第一期大数据培训课程 2013年10月-11月与某公司工程师陈威、刘凯完成大数据平台第一期建设，包括HDFS、HBASE，相关系统调试工作 2013年12月-2014春节前，完成大数据平台二期建设，包括该公司大数据软件组件的建设、调试、培训 2014年2月-4月，完成大数据平台的全部软硬件建设工作，与厂商合作完成一个mapreduce算法移植工作 2014年4月，赴基因库商谈数据库数据共享事宜 2014年5月-8月，完成一个基因组HBASE数据库建设 2014年7月-10月，大数据平台和HBASE数据库的应用软件开发移植 2014年10月-12月，项目缓冲时间