版式电子文档表格自动检测与性能评价-中国计算机学会中文信息技术.PDF

版式电子文档表格自动检测与性能评价-中国计算机学会中文信息技术.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
版式电子文档表格自动检测与性能评价-中国计算机学会中文信息技术

北京大学学报 ( 自然科学版) Acta Scientiarum Naturalium Universitatis Pekinensis 版式电子文档表格自动检测与性能评估 1 1 1,2,3 1,† 房婧 高良才 仇睿恒 汤帜 1. 北京大学计算机科学技术研究所 , 北京 100080; 2. 数字出版技术国家重点实验室 , 北京 100080; 3. 中关村科技 园区海淀园企业博士后科研工作站北大方正集团公司分站, 北京 100080; † 通信作者 , E-mail: tangzhi@ 摘要 针对版式电子文档的特点, 提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法, 并 且对中英文档均有效。此外 , 针对缺少表格定位自动评估体系, 构建了一个初具规模的公开数据集, 由中英 文版式页面等比例组成, 对其标注基准结果 , 并针对移动阅读应用场景提出一套评估准则。实验部分通过和 现有两个开源表格定位项目的比较, 验证了新提出的表格定位方法的有效性和评估体系的实用性, 特别是对 中文数据集获得了较好的结果。 关键词 版式文档; 表格定位; 表格检测; 自动性能评估 中图分类号 TP391 Automatic Table Boundary Detection and Performance Evaluation in Fixed-layout Documents 1 1 1,2,3 1,† FANG Jing , GAO Liangcai , QIU Ruiheng , TANG Zhi 1. Institute of Computer Science Technology, Peking University, Beijing 100080; 2. State Key Laboratory of Digital Publishing Technology, Beijing 100080; 3. Founder Group Substation, Postdoctoral Workstation of the Zhongguancun Haidian Science Park, Beijing 100080; † Corresponding author, E-mail: tangzhi@ Abstract The authors propose a novel and effective table boundary detection method via visual separators and geometric content layout information, which is effective for both Chinese and English documents. Additionally, due to the lack of automatic evaluation system for table boundaries detection, the authors also provide a pub

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档