基于Hadoop中医药数据管理策略研究.docVIP

下载本文档

10
0
约6.54千字
约 13页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop中医药数据管理策略研究.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop中医药数据管理策略研究

基于Hadoop中医药数据管理策略研究　　摘要：目的为解决传统方法采集、存储和处理海量中医药数据的低效问题，探索数据管理的新策略。方法根据中医药数据的典型特征，设计基于Hadoop的分层管理架构，对串行数据挖掘算法进行MapReduce化改进；部署单节点服务器和分布式集群，采用8组不同规模的数据集，进行数据采集实验和串并行算法实验。结果数据传输时间在非分布式环境下通常超过3000 s，增幅较大，而在分布式集群下一般不超过300 s，增幅平缓；当数据规模超过一定范围后，与伪分布式和完全分布式下的并行算法比较，非分布式下串行算法的运行耗时急剧增加。结论与传统单节点系统相比，基于Hadoop的中医药数据管理平台采集、存储及处理海量数据的效率明显提高，尤其适用于大规模非结构化或半结构化的中医药数据。　　关键词：中医药数据；Hadoop；分层管理；MapReduce；分布式　　DOI：10.3969/j.issn.1005-5304.2018.05.021 　　中?D分类号：R2-03 文献标识码：A 文章编号：1005-5304（2018）05-0096-05 　　Research on TCM Data Management Strategy Based on Hadoop 　　LIANG Yang1， 2， DING Chang-song1， YU Jun-yang3 　　1. School of Information Science and Engineering， Hunan University of Chinese Medicine， Changsha 410208， China； 2. School of Information Science and Engineering， Central South University， Changsha 410083， China；　　3. Software School， Henan University， Kaifeng 475001， China 　　Abstract： Objective To solve the inefficiencies of traditional methods of collecting， storing and processing mass TCM data； To explore new strategies for data management. Methods According to the typical characteristics of TCM data， a hierarchical management architecture based on Hadoop was designed and a processing algorithm based on MapReduce was improved. The single node server and Hadoop distributed clusters were deployed. Data acquisition experiment and serial and parallel algorithm experiments were conducted， using eight groups of data sets of different sizes. Results The data transfer time was usually more than 3000 seconds with larger increase under non-distributed environment， while it generally did not exceed 300 seconds with moderate growth rate in distributed clusters. In addition， when the data size exceeded a certain range， the running time of the serial algorithm under non-distributed environment was drastically increased， comparing with the parallel algorithm under pseudo-distributed and fully distributed environment. Conclusion Compared with the traditional single node system， th