- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于矩阵模型的中文书写文本图表的提取和分割.pdf
基于矩阵模型的中文书写文本图表的提取和分割
摘 要
本文论述了基于矩阵模型的中文书写文本图表的提取和分割方法。书写文本为行式
书写的字符,其中包括手写体字符和图表。每行由在同一线段上的字符组成。文本与图
表的行、相邻的字符有关。如果可以从图表中提取,就可识别这些字符线段以及相关的图
表,也可识别行、列排序的标题、子标题和字符部件。实验显示,本文的方法具有较高的效
率。
关键词 中文书写的文本 数字的书写 手写体 图表的提取 图表的分割
一 、 概述 别没有边缘和分割线段的标题和字符部件。这
随着数字式记录方式如Anoto Pens 、MS 里,我们列出了不能识别的几种情况:
Tablet PC ( 、 IBM ThinkPad TransNote( 、 (1)不存在完整的边缘线:仅在顶部和底
Interactive Pen Displays‘ 和 Electronic White 部确定两条边缘线或完全没有边缘线;
Boards 以及基于笔划相互作用和联系的技 (2)没有完整的分割线:存在一些不完整
术 ’”、数字式其它记录方式的引入,为用笔书 的分割线或完全没有分割线;
写于纸上的记录方式输入创造了条件。其形式 (3)标题或字符部件的组成多于一个线段
有:书写记录的坐标、倍率的标识和笔划取样点 或没有包含任何内容;
的 缩以及多页文本的存贮。书写文本由自由 (4)标题或字符部件可能含有中文字符、
形式的输入和采用新的文件形式来表示。目 英语单词、数字以及特殊符号;
前,已开发了几种针对书写文本记录方式、存 (5)一组子标题和字符部件。行式排列的
贮、管理、分析和识别的软件工具 。 多组子标题和字符部件,列式排列的多组子标
书写文本可包含正文、图表、流程图等。图 题和字符部件;
表为简捷的、采用有效描述共用格式的有关信 (6)行或列中存在不同数量的字符部件。
息¨叭,它可以使读者方便搜索、比较,快速理解 从上述几种情况可以看出,在图表中,相邻
数据的形成¨”。大部分的书写文本包含了各 的行或其主要部分必须以字符部件和标题的形
种类型的图表,但分析文本需要提取和分割图 式分布,并存在一些连接线段(分割线和边缘
表。分割的图表可进一步在多种优化方式下进 线)。基于以上考虑,我们检测图表的标题、字
行调整,如行、列和字符部件的移动,横或竖标 符部件和连接线段。矩阵模型最接近于提取的
题以及字符部件可自动排序。图表利用 MS 图表,且存在相同的部件和结构,如行、列和元
Word和MS Excel“ 转换为其它的文本形式。 素。文本先以矩阵模式的行书写,即行式的标
先从书写文本中提取图表,然后进行分割。 题和字符部件,还有一些图表的行为边缘线和
分割图表的目的是,使提取的图表分成多个部 分割线。由于汉字在结构上比英语单词复杂,
件(行、列、标题、子标题和字符部件),并作相 所以中文的文本适合于字符输入。我们的目的
应的识别处理。当前的方法¨ 提取的是不完 是,从中文书写的文本中提取图表来描述日常
整的或没有边缘线段的图表,但能正确提取图 生活是遇到的问题,从中提取基于矩阵模型图
表中的标题和字符部件。另外,不能清晰地识 表的物理和逻辑结构。先将分级构成的笔划以
1 1
矩阵形式来表示书写的文本,然后从矩阵(书
文档评论(0)