面向大数据的多源化工医药数据融合存储技术优化研究.pdfVIP

  • 1
  • 0
  • 约1.51万字
  • 约 4页
  • 2026-02-27 发布于江西
  • 举报

面向大数据的多源化工医药数据融合存储技术优化研究.pdf

学术论文粘

发明创新试验Academicpapers接ADHESION

2026年1月第53卷第1期

doi:10.3969/j.issn.1001-5922.2026.1.050Vol.53No.1,Jan.2026

面向大数据的多源化工医药数据融合

存储技术优化研究

贾晶晶,王晨博

(豫北医学院,河南新乡453000)

摘要:针对传统Hadoop框架存储与计算策略处理复杂数据关联性不足的问题,研究首先通过多层次数据

集成方法,实现跨系统平台的数据迁移与标准化,构建统一的数据字典。随后,引入基于哈希分桶算法的数

据分布机制,优化HDFS存储策略,减少关联数据查询时的网络传输开销,并对MapReduce计算框架进行针

对性优化,提升关联查询效率。为验证提出的优化策略的有效性,研究基于相同数据规模的多源化工医药数

据,对比了MySQL数据库与优化前后的Hadoop框架的关联查询运行时间。结果表明,优化后的Hadoop框

架储存多源化工医药时,关联查询所需运行时间大大减少,查询效率大幅提升。

关键词:大数据存储优化;多源数据集成;Hadoop框架;哈希分桶算法;关联性分析

中图分类号:TP311.13;TQ460文献标志码:A文章编号:1001-5922(2026)1-0201-04

Researchonoptimizationofmulti-sourcechemicaland

pharmaceuticaldatafusionandstoragetechnologyforbigdata

JIAJingjing,WANGChenbo

(NorthHenanMedicalUniversity,Xinxiang453000,HenanChina)

Abstract:ToaddresstheproblemthatthestorageandcomputingstrategiesofthetraditionalHadoopframeworkare

insufficientinhandlingcomplexdatacorrelations,thisstudyfirstimplementedcross-systemandcross-platformdata

migrationandstandardizationthroughamulti-leveldataintegrationmethod,andconstructedaunifieddatadictiona-

ry.Subsequently,adatadistributionmechanismbasedonthehashbucketingalgorithmwasintroducedtooptimize

theHDFSstoragestrategy,reducingthenetworktransmissionoverheadduringassociateddataqueries.Meanwhile,

theMapReducecomputingframeworkwasoptimizedinatargetedmannertoimprovetheefficiencyofassociated

queries.Toverifytheeffectivenessoftheproposedoptimizationstrategy,thestudycomparedtheassociatedquery

runningtimeoftheMySQLdatabasewiththatoft

文档评论(0)

1亿VIP精品文档

相关文档