- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
单位代码
10445
学号
2007021129
分类号
TP391.3
硕 士 学 位 论 文
论文题目 基于特征的文档图像检索
技术研究与应用
学科专业名称 管理科学与工程 申 请 人 姓 名 范红梅
指 导 教 师 王希常 研究员
论文提交时间 2010 年 05 月 26 日
独 创 声 明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得 (注:如 没有其他需要特别声明的,本栏可空)或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。
学位论文作者签名: 导师签字:
学 位 论 文 版 权 使 用 授 权 书
本学位论文作者完全了解 学校 有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权 学校 可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在 解密后适用本授权书)
学位论文作者签名: 导师签字: 签字日期:2010 年 月 日 签字日期:2010 年 月 日
山东师范大学硕士学位论文
山东师范大学硕士学位论文
目 录
摘 要I
ABSTRACTIII
第 1 章 绪论1
1.1 图像检索 1
1.1.1 概述1
1.1.2 基于内容的图像检索2
1.2 文档图像检索 3
1.2.1 概述3
1.2.2 国内外研究现状4
1.3 本文的研究工作 7
第 2 章 文档图像特征提取与特征匹配8
2.1 文档图像预处理 8
2.1.1 文档图像去噪8
2.1.2 二值化9
2.1.3 倾斜检测11
2.2 文档图像特征定义和提取 12
2.2.1 针对整个文档图像的特征提取 16
2.2.2 文档图像的文字区域、非文字区域分割 22
2.2.3 文字区域的特征提取 25
2.2.4 非文字区域的特征提取 28
2.3 特征匹配 30
第 3 章 检索32
3.1 多维索引 32
3.1.1 多维索引方法概述 32
3.1.2 聚类金字塔树 34
3.2 相关反馈技术 37
3.2.1 概述 37
3.2.2 基于贝叶斯理论的相关反馈 38
3.3 检索 42
3.3.1 构造候选图像集合 42
3.3.2 从候选集合中得到查询结果 43 第 4 章 实验及分析44
4.1 实验数据 44
4.2 性能评价指标 45
4.3 实验流程 45
4.4 实验 46
4.4.1 检索准确性实验及分析 46
4.4.2 检索时间 49
第 5 章 总结与展望50
参考文献51
致 谢56
攻读硕士学位期间发表的论文和参与的项目57
基于特征的文档图像检索技术研究与应用
摘 要
文档图像检索是图像检索的一个重要分支,它在电子档案管理、数字图书馆、 办公自动化等方面应用广泛。文档图像检索的目标是从文档图像数据库中找到满 足要求的一幅或多幅图像。常见的文档图像检索算法可以分为基于版面重建的文 档图像检索和基于图像特征的检索两大类。在基于特征的文档图像检索中,对于 文档图像这类特殊图像很难以颜色和纹理视觉特征来表示文档图像,同时也很难 以从整体上提取的特征来表示文档图像的内容,所以基于特征的文档图像检索的 关键技术之一是如何提取特征,如何计算特征的相似度。
本文分析了现有基于特征的文档图像检索方法的优缺点,在此基础上,沿用 基于特征的文档图像检索的基本思路,将文档图像的全局特征和局部特征相结 合,给出了一种新的文档图像检索方法。首先对图像进行预处理,包括去噪、二 值化和倾斜检测等。本文采用中值滤波方法去除椒盐噪声,使用一种简单的快速 扫描方法去除黑边噪声;使用 Bernsen 算法对图像进行二值化处理,然后采用一 种快速倾斜角度检测算法检测文档图像倾斜度,再利用快速旋转算法旋转校正图 像。之后再对整个文档图像定义和提取有效区域的宽和高、分层密度特征、Sift 特征。然后利用最大梯度差方法将文档图像分割成文字区域和非文字区域。对文 字区域提取连通体对之间的距离(字间空白)、连通体高度、宽度等局部特征, 连通体的个数、空穴个数、平均空白、平均连通体高度、平均连通体宽度和段落 结构特征等全局特征。对非文字区域借鉴方块编码的思想提取关键块特征。其中 分层密度特征同时包含文档图像的全局特征和局部特征,具有良好的区分度;Sift 特征是文档图像的局部特征,它对旋转、尺度缩放、扭曲变化保持不变性,对视 角变化、仿射变换、噪声也保持一定程度的稳定性,是一种对文档图像具有高鲁 棒性的特征。文字区域特征
您可能关注的文档
- 基于网络验证授权的软件加壳技术的研究及其在DRM中的应用计算机软件与理论专业论文.docx
- 基于太阳能发电的超高连体烟囱结构设计研究-结构工程专业论文.docx
- 基于神经网络预测控制的锅炉过热汽温控制研究-控制理论与控制工程专业论文.docx
- 基于特征融合掌纹识别-信号与信息处理专业论文.docx
- 基于纹理特征的图像检索方法研究-计算机软件与理论专业论文.docx
- 基于三维雷达资料的对流初生预警算法-信号与信息处理专业论文.docx
- 基于网格参数化的三维模型Morphing分析-教育学;教育技术学专业论文.docx
- 基于网格参数化的三维模型Morphing研究-教育学;教育技术学专业论文.docx
- 基于预测控制的锌空燃料电池极片生产线控制系统研究-机械工程专业论文.docx
- 基于微波光子学的倍频和变频技术研究-光学工程专业论文.docx
- 基于时序鉴别的井下低压供电网选择性漏电保护系统的研究电力电子与电力传动专业论文.docx
- 基于长周期光纤光栅的全正色散锁模掺镱光纤激光器及放大倍频技术-光学工程专业论文.docx
- 基于三维路面重构的汽车平顺性仿真研究-车辆工程专业论文.docx
- 基于系统日志的软件性能测试的设计与实施-软件工程专业论文.docx
- 基于树木年轮学的历史气候数据重建与特征分析──以江西大岗山林区为例-生态学专业论文.docx
- 基于无线信号的室内定位系统的研究与实现-软件工程专业论文.docx
- 基于网络编码的文件共享系统研究与实现-软件工程专业论文.docx
- 基于颜色特征视觉移动机器人目标跟踪系统-机械电子工程专业论文.docx
- 基于人类视觉系统和离散小波变换的图像压缩算法研究-信号与信息系统专业论文.docx
- 基于图的半监督情感分类算法研究-应用数学专业论文.docx
原创力文档


文档评论(0)