基于矩阵模型的中文书写文本图表的提取和分割.pdfVIP

基于矩阵模型的中文书写文本图表的提取和分割.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于矩阵模型的中文书写文本图表的提取和分割.pdf

基于矩阵模型的中文书写文本图表的提取和分割 摘 要 本文论述了基于矩阵模型的中文书写文本图表的提取和分割方法。书写文本为行式 书写的字符,其中包括手写体字符和图表。每行由在同一线段上的字符组成。文本与图 表的行、相邻的字符有关。如果可以从图表中提取,就可识别这些字符线段以及相关的图 表,也可识别行、列排序的标题、子标题和字符部件。实验显示,本文的方法具有较高的效 率。 关键词 中文书写的文本 数字的书写 手写体 图表的提取 图表的分割 一 、 概述 别没有边缘和分割线段的标题和字符部件。这 随着数字式记录方式如Anoto Pens 、MS 里,我们列出了不能识别的几种情况: Tablet PC ( 、 IBM ThinkPad TransNote( 、 (1)不存在完整的边缘线:仅在顶部和底 Interactive Pen Displays‘ 和 Electronic White 部确定两条边缘线或完全没有边缘线; Boards 以及基于笔划相互作用和联系的技 (2)没有完整的分割线:存在一些不完整 术 ’”、数字式其它记录方式的引入,为用笔书 的分割线或完全没有分割线; 写于纸上的记录方式输入创造了条件。其形式 (3)标题或字符部件的组成多于一个线段 有:书写记录的坐标、倍率的标识和笔划取样点 或没有包含任何内容; 的 缩以及多页文本的存贮。书写文本由自由 (4)标题或字符部件可能含有中文字符、 形式的输入和采用新的文件形式来表示。目 英语单词、数字以及特殊符号; 前,已开发了几种针对书写文本记录方式、存 (5)一组子标题和字符部件。行式排列的 贮、管理、分析和识别的软件工具 。 多组子标题和字符部件,列式排列的多组子标 书写文本可包含正文、图表、流程图等。图 题和字符部件; 表为简捷的、采用有效描述共用格式的有关信 (6)行或列中存在不同数量的字符部件。 息¨叭,它可以使读者方便搜索、比较,快速理解 从上述几种情况可以看出,在图表中,相邻 数据的形成¨”。大部分的书写文本包含了各 的行或其主要部分必须以字符部件和标题的形 种类型的图表,但分析文本需要提取和分割图 式分布,并存在一些连接线段(分割线和边缘 表。分割的图表可进一步在多种优化方式下进 线)。基于以上考虑,我们检测图表的标题、字 行调整,如行、列和字符部件的移动,横或竖标 符部件和连接线段。矩阵模型最接近于提取的 题以及字符部件可自动排序。图表利用 MS 图表,且存在相同的部件和结构,如行、列和元 Word和MS Excel“ 转换为其它的文本形式。 素。文本先以矩阵模式的行书写,即行式的标 先从书写文本中提取图表,然后进行分割。 题和字符部件,还有一些图表的行为边缘线和 分割图表的目的是,使提取的图表分成多个部 分割线。由于汉字在结构上比英语单词复杂, 件(行、列、标题、子标题和字符部件),并作相 所以中文的文本适合于字符输入。我们的目的 应的识别处理。当前的方法¨ 提取的是不完 是,从中文书写的文本中提取图表来描述日常 整的或没有边缘线段的图表,但能正确提取图 生活是遇到的问题,从中提取基于矩阵模型图 表中的标题和字符部件。另外,不能清晰地识 表的物理和逻辑结构。先将分级构成的笔划以 1 1 矩阵形式来表示书写的文本,然后从矩阵(书

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档