- 1
- 0
- 约1.51万字
- 约 4页
- 2026-02-27 发布于江西
- 举报
学术论文粘
发明创新试验Academicpapers接ADHESION
2026年1月第53卷第1期
doi:10.3969/j.issn.1001-5922.2026.1.050Vol.53No.1,Jan.2026
面向大数据的多源化工医药数据融合
存储技术优化研究
贾晶晶,王晨博
(豫北医学院,河南新乡453000)
摘要:针对传统Hadoop框架存储与计算策略处理复杂数据关联性不足的问题,研究首先通过多层次数据
集成方法,实现跨系统平台的数据迁移与标准化,构建统一的数据字典。随后,引入基于哈希分桶算法的数
据分布机制,优化HDFS存储策略,减少关联数据查询时的网络传输开销,并对MapReduce计算框架进行针
对性优化,提升关联查询效率。为验证提出的优化策略的有效性,研究基于相同数据规模的多源化工医药数
据,对比了MySQL数据库与优化前后的Hadoop框架的关联查询运行时间。结果表明,优化后的Hadoop框
架储存多源化工医药时,关联查询所需运行时间大大减少,查询效率大幅提升。
关键词:大数据存储优化;多源数据集成;Hadoop框架;哈希分桶算法;关联性分析
中图分类号:TP311.13;TQ460文献标志码:A文章编号:1001-5922(2026)1-0201-04
Researchonoptimizationofmulti-sourcechemicaland
pharmaceuticaldatafusionandstoragetechnologyforbigdata
JIAJingjing,WANGChenbo
(NorthHenanMedicalUniversity,Xinxiang453000,HenanChina)
Abstract:ToaddresstheproblemthatthestorageandcomputingstrategiesofthetraditionalHadoopframeworkare
insufficientinhandlingcomplexdatacorrelations,thisstudyfirstimplementedcross-systemandcross-platformdata
migrationandstandardizationthroughamulti-leveldataintegrationmethod,andconstructedaunifieddatadictiona-
ry.Subsequently,adatadistributionmechanismbasedonthehashbucketingalgorithmwasintroducedtooptimize
theHDFSstoragestrategy,reducingthenetworktransmissionoverheadduringassociateddataqueries.Meanwhile,
theMapReducecomputingframeworkwasoptimizedinatargetedmannertoimprovetheefficiencyofassociated
queries.Toverifytheeffectivenessoftheproposedoptimizationstrategy,thestudycomparedtheassociatedquery
runningtimeoftheMySQLdatabasewiththatoft
原创力文档

文档评论(0)