- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
印刷体中文文档中表格和汉字的识别研究
摘 要
随着信启、化时代的到来,相互交流的信息内容越来越丰富,一个中文信息、文档中不
仅会含有中文、英文、各种各样的公式以及表格和图形图像等内容。因此,快速而准确
的将信息中各种内容输入到计算机是信息处理的一个关键问题。中文文档识别系统就是
为了实现信息的识别输入以及转换信息文档格式而设计出的产物。而目前的识别系统并
不能实现公式的识别输入,设计一种含有公式识别功能的中文文档识别系统,对信息文
档的处理有着重要的实用价值和理论意义。
本课题在已有的公式识别印刷体中文文档识别系统基础上,对该系统进行了功能上
的完善和补充。主要工作如下:
首先,对扫描得到原始文档图像进行预处理。在进行图像预处理过程中的二值化时,
我们做了基于直方图谷点门限分割法和基于Ostu算法的详细的分析的和比较,最终由
于Ostu算法的效果和运算速度较优,在此应用的是Ostu算法。
其次,待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对
表格文档图像应用了基于游程的倾斜表格图像的检测和反变换的方法进行旋转,实现了
对表格文档图像的倾斜角检测及校正。对于角度较小(一5。~5。)的情况,运用上述方
法能达到快速倾斜校正的目的,取得更好的效果。
然后,是对表格的检测和提取。在这里应用的是基于数学形态学变换的表格检测和
提取算法,并对提取的表格线进行细化和直线拟合最终实现了对表格的识别。通过实验
得出本文采用的方法对表格的检测和提取的效果比较理想。
最后,是汉字识别的部分,采用一种多特征提取并结合多分类器集成的方法对汉字
的字符识别,在对汉字进行细化和归一化的基础上,并把一级汉字字库扩展为二级汉字
模板字库。
本文主要针对比较正式、规范的书籍、报刊和杂志的图像进行采集和识别。所研究
的主要内容是在以往同课题组同学的基础上对印刷体中文文档识别系统的功能进行完
善。重点是实现了对表格的检测和提取,并扩充了相应的汉字库。与成熟的OCR技术
相比,解决了无法实现自动处理印刷体文档中的表格识别问题,是含有识别公式技术的
印刷体文档识别系统,它提高了原始文档的利用率,并方便了公式的录用、查询等,对
科技的发展和传播有深远意义。
关键词: 预处理;倾斜校正;汉字识别;表格识别
印刷体中文文档中表格平¨汉字的识别研究
ABSTRACT
Wlththearrivalofthelnformation ofthelnformationaremoreandmore
age.contents
Chinese—documentinformationisnot contained also
complicated.The only Chinese,but
contained of and thedetailsofthe
English,kindsformulas,tablesimages.Toinput
informationinto and isa taskininformation
computerquicklyefficientlykey processing.
Chinesecharacter isthe for andformat
recognitionsystem productrecognitioninputting
cannotrealizeformulas has
changing.Yet,operatingrecognitionsystem recognition.So,it
valueand for theChinesedocument
文档评论(0)