基于特征的文档图像检索技术研究与应用-管理科学与工程专业论文.docxVIP

基于特征的文档图像检索技术研究与应用-管理科学与工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
单位代码 10445 学号 2007021129 分类号 TP391.3 硕 士 学 位 论 文 论文题目 基于特征的文档图像检索 技术研究与应用 学科专业名称 管理科学与工程 申 请 人 姓 名 范红梅 指 导 教 师 王希常 研究员 论文提交时间 2010 年 05 月 26 日 独 创 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得 (注:如 没有其他需要特别声明的,本栏可空)或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者签名: 导师签字: 学 位 论 文 版 权 使 用 授 权 书 本学位论文作者完全了解 学校 有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权 学校 可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在 解密后适用本授权书) 学位论文作者签名: 导师签字: 签字日期:2010 年 月 日 签字日期:2010 年 月 日 山东师范大学硕士学位论文 山东师范大学硕士学位论文 目 录 摘 要I ABSTRACTIII 第 1 章 绪论1 1.1 图像检索 1 1.1.1 概述1 1.1.2 基于内容的图像检索2 1.2 文档图像检索 3 1.2.1 概述3 1.2.2 国内外研究现状4 1.3 本文的研究工作 7 第 2 章 文档图像特征提取与特征匹配8 2.1 文档图像预处理 8 2.1.1 文档图像去噪8 2.1.2 二值化9 2.1.3 倾斜检测11 2.2 文档图像特征定义和提取 12 2.2.1 针对整个文档图像的特征提取 16 2.2.2 文档图像的文字区域、非文字区域分割 22 2.2.3 文字区域的特征提取 25 2.2.4 非文字区域的特征提取 28 2.3 特征匹配 30 第 3 章 检索32 3.1 多维索引 32 3.1.1 多维索引方法概述 32 3.1.2 聚类金字塔树 34 3.2 相关反馈技术 37 3.2.1 概述 37 3.2.2 基于贝叶斯理论的相关反馈 38 3.3 检索 42 3.3.1 构造候选图像集合 42 3.3.2 从候选集合中得到查询结果 43 第 4 章 实验及分析44 4.1 实验数据 44 4.2 性能评价指标 45 4.3 实验流程 45 4.4 实验 46 4.4.1 检索准确性实验及分析 46 4.4.2 检索时间 49 第 5 章 总结与展望50 参考文献51 致 谢56 攻读硕士学位期间发表的论文和参与的项目57 基于特征的文档图像检索技术研究与应用 摘 要 文档图像检索是图像检索的一个重要分支,它在电子档案管理、数字图书馆、 办公自动化等方面应用广泛。文档图像检索的目标是从文档图像数据库中找到满 足要求的一幅或多幅图像。常见的文档图像检索算法可以分为基于版面重建的文 档图像检索和基于图像特征的检索两大类。在基于特征的文档图像检索中,对于 文档图像这类特殊图像很难以颜色和纹理视觉特征来表示文档图像,同时也很难 以从整体上提取的特征来表示文档图像的内容,所以基于特征的文档图像检索的 关键技术之一是如何提取特征,如何计算特征的相似度。 本文分析了现有基于特征的文档图像检索方法的优缺点,在此基础上,沿用 基于特征的文档图像检索的基本思路,将文档图像的全局特征和局部特征相结 合,给出了一种新的文档图像检索方法。首先对图像进行预处理,包括去噪、二 值化和倾斜检测等。本文采用中值滤波方法去除椒盐噪声,使用一种简单的快速 扫描方法去除黑边噪声;使用 Bernsen 算法对图像进行二值化处理,然后采用一 种快速倾斜角度检测算法检测文档图像倾斜度,再利用快速旋转算法旋转校正图 像。之后再对整个文档图像定义和提取有效区域的宽和高、分层密度特征、Sift 特征。然后利用最大梯度差方法将文档图像分割成文字区域和非文字区域。对文 字区域提取连通体对之间的距离(字间空白)、连通体高度、宽度等局部特征, 连通体的个数、空穴个数、平均空白、平均连通体高度、平均连通体宽度和段落 结构特征等全局特征。对非文字区域借鉴方块编码的思想提取关键块特征。其中 分层密度特征同时包含文档图像的全局特征和局部特征,具有良好的区分度;Sift 特征是文档图像的局部特征,它对旋转、尺度缩放、扭曲变化保持不变性,对视 角变化、仿射变换、噪声也保持一定程度的稳定性,是一种对文档图像具有高鲁 棒性的特征。文字区域特征

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档