基于PDF的文字定位识别解剖.ppt

PDF文字定位查找 第12小组成员:杨平、李高扬、魏雪、王鹏 西安电子科技大学021212班 方法实现 项目分析 背景现状 0 1 02 03 目录 PDF全称Portable Document Format,是一种电子文件格式。这种文件格式与操作系统平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。 PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。 对普通读者而言,用PDF制作的电子书具有纸版书的质感和阅读效果,可以“逼真地”展现原书的原貌,而显示大小可任意调节,给读者提供了个性化的阅读方式 WORD文档在跨平台使用方面不如PDF方便,而且WORD文档是可以进行编辑修改的,在安全性和可靠性上不如PDF,而且往往很难反映出用其它编辑软件排版的版面信息,使用上有一定的局限性。 图像的腐蚀 图像的腐蚀 文字的定位 文字的定位 运行结果 改进结果 其他样本 其他样本 其他样本 改进结果 其他样本 其他样本 结果显示 作品分析 1、前期PDF的转化。 2、文字匹配的环节 3、查找到后结果的输出 展望:电子简历的筛选,纸质文档的 查找 感谢聆听

文档评论(0)

1亿VIP精品文档

相关文档