非结构化表格文档数据抽取与组织模型研究-浙江工业大学学报.pdfVIP

  • 22
  • 0
  • 约7.1万字
  • 约 8页
  • 2017-11-24 发布于天津
  • 举报

非结构化表格文档数据抽取与组织模型研究-浙江工业大学学报.pdf

非结构化表格文档数据抽取与组织模型研究-浙江工业大学学报

第 卷第 期 浙江工业大学学报 Vol.44No.5 4 5 4 年 月 OURNAL OFZHEJIANGUNIVERSITY OFTECHNOLOGY ct.2016 2 J O 016 10           非结构化表格文档数据抽取与组织模型研究 , , 1 2 1 1 1 1 2 , , , , 张元鸣 陈 苗 陆佳炜 徐 俊 肖 刚       ( 浙江工业大学 , ; 1 计算机科学与技术学院 浙江杭州 . 10023 3 浙江工业大学 , ) 2. 机械工程博士后流动站 浙江杭州 10014 3 摘 : , 要 针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题 提出了一种面向非结构 , 化表格文档的数据抽取方法与组织模型 在分析文档结构特征和数据流特征的基础上 定义了数据 . , , 、 、 流生成基本规则 给出了一个基于规则的数据抽取流程 包括逻辑结构抽取 文档预处理 数据抽取 , ; 和数据组织等主要步骤 设计实现了单值区域与多值区域数据抽取算法 从文档中抽取的数据被组 , 织成适合于MaReduce分析的结构化数据模型 该模型能够为大数据分析提供模型支持 实验结 p . : , 果表明 该抽取方法具有较高的准确率与召回率 数据组织模型也能够有效地支持大数据分析. : ; ; ; 关键词 非结构化表格文档 数据抽取 结构化数据模型 数据分析 中图分类号: 文献标志码: 文章编号: 4 ( ) 0 0 TP391 006 303201605 487 8 A

文档评论(0)

1亿VIP精品文档

相关文档