- 22
- 0
- 约7.1万字
- 约 8页
- 2017-11-24 发布于天津
- 举报
非结构化表格文档数据抽取与组织模型研究-浙江工业大学学报
第 卷第 期 浙江工业大学学报 Vol.44No.5
4 5
4
年 月 OURNAL OFZHEJIANGUNIVERSITY OFTECHNOLOGY ct.2016
2 J O
016 10
非结构化表格文档数据抽取与组织模型研究
, ,
1 2 1 1 1 1 2
, , , ,
张元鸣 陈 苗 陆佳炜 徐 俊 肖 刚
( 浙江工业大学 , ;
1 计算机科学与技术学院 浙江杭州
. 10023
3
浙江工业大学 , )
2. 机械工程博士后流动站 浙江杭州 10014
3
摘 : ,
要 针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题 提出了一种面向非结构
,
化表格文档的数据抽取方法与组织模型 在分析文档结构特征和数据流特征的基础上 定义了数据
.
, , 、 、
流生成基本规则 给出了一个基于规则的数据抽取流程 包括逻辑结构抽取 文档预处理 数据抽取
, ;
和数据组织等主要步骤 设计实现了单值区域与多值区域数据抽取算法 从文档中抽取的数据被组
,
织成适合于MaReduce分析的结构化数据模型 该模型能够为大数据分析提供模型支持 实验结
p .
: ,
果表明 该抽取方法具有较高的准确率与召回率 数据组织模型也能够有效地支持大数据分析.
: ; ; ;
关键词 非结构化表格文档 数据抽取 结构化数据模型 数据分析
中图分类号: 文献标志码: 文章编号: 4 ( ) 0 0
TP391 006 303201605 487 8
A
您可能关注的文档
最近下载
- 2025届高考物理热点题型归类专题29动量观点在电磁感应中的应用讲义+变式演练.pdf VIP
- 港股通知识点、港股通开通测评题及答案(全).pdf VIP
- 课件:《一起长大的玩具》电子版本.pdf VIP
- 欧洲规范-NF P18-572-中文.pdf VIP
- 2025届高考物理热点题型归类专题22电容器带电粒子在电场中的运动讲义+变式演练.docx
- (完整word版)湘少版小学英语单词表3-6年级详细.doc VIP
- (一模)潍坊市2026届高三高考模拟考试数学试卷.pdf
- 2025届高考物理热点题型归类专题31光学讲义+变式演练.pdf VIP
- 2025届高考物理热点题型归类专题28电磁感应综合问题讲义+变式演练.docx
- 2024年高考新高考一卷语文试卷.pdf VIP
原创力文档

文档评论(0)