基于Word2Vec模型的泥石流多源灾害数据融合研究.pdfVIP

  • 0
  • 0
  • 约2.86万字
  • 约 6页
  • 2026-03-04 发布于福建
  • 举报

基于Word2Vec模型的泥石流多源灾害数据融合研究.pdf

第47卷第7期人民黄河Vol.47,No.7

2025年7月YELLOWRIVERJul.,2025

基于Word2Vec模型的泥石流多源灾害数据融合研究

1221,31,3

晋磊,徐鹏,黎杰,蔡迎春,杨海波

(1.郑州大学水利与交通学院,河南郑州450001;2.中国电建集团贵阳勘测设计研究院有限公司,

贵州贵阳550081;3.国家隧道掘进机与智能运维重点实验室,河南郑州450001)

摘要:在大数据、物联网与人工智能技术快速发展的背景下,泥石流灾害数据正日益呈现出海量、多源、异构的特点。主要采用

jieba、NLPIR和LTP等分词工具抽取模型库,对非结构化存储的泥石流灾害数据进行解析与抽取,并汇聚至数据库,实现数据融合。

通过Word2Vec模型将词语映射到高维空间中,实现文本中的词汇转换为实数向量;采用tSNE算法和KernelPCA算法将高维词

向量转换为低维度的向量,使用Kmeans算法对其进行聚类可视化。研究结果表明:在数据抽取评估方面,一致性、完整性、准确性

的评估均值在0.800以上,均方差小于0.050。对比PCA和tSNE两种降维方法,通过轮廓系数(SilhouetteScore,SS)评估聚类效

果,PCA的SS指标值为0.359,tSNE的SS指标值为0.336,结果显示PCA表现更优。Bert模型具有较强的上下文理解能力,更加

适合泥石流灾害数据抽取,依托Word2Vec模型的CBOW架构获取词向量,结果显示PCA在评价指标上整体表现优于tSNE。针

对泥石流灾害数据多源和语义一致性问题,涵盖从数据抽取、降维到聚类的全过程,为实现泥石流灾害数据的语义融合与统一管理

提供了有效支持。

关键词:泥石流灾害;知识抽取;质量评估;知识融合;Word2Vec

中图分类号:P694文献标志码:Adoi:10.3969/j.issn.10001379.2025.07.016

引用格式:晋磊,徐鹏,黎杰,等.基于Word2Vec模型的泥石流多源灾害数据融合研究[J].人民黄河,2025,47(7):97102.

ResearchonMulti⁃SourceDebrisFlowDisasterDataFusionBasedonWord2VecModel

1221,31,3

JINLei,XUPeng,LIJie,CAIYingchun,YANGHaibo

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档