- 6
- 0
- 约 2页
- 2017-06-13 发布于北京
- 举报
图片文字识别技术 图片文字识别软件是现在办公室的必备软件,它可以识别JPG、GIF、PNG、BMP、TIF和PDF源文件、PDF扫描件,也就是说我们在日常工作中能够遇到的不能编辑的文字都可以通过捷速图片文字识别软件来识别,识别得到的文字可以自由的进行编辑。有很多人有这样的疑问,图片文字识别软件的技术原理是什么呢? 1、图文输入:是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是OCR软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别错误率上升。 2、预处理:扫描一幅简单的印刷文档的图像,将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的
原创力文档

文档评论(0)