- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
独创性(或创新性)声明
独创性(或创新性)声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究
成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 翌煎 日期: 知吐、午二g-
关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:
研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保
留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)
保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论
文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 至煎 日期: 塑皇:生_=至 导师签名 霉孳.
北京邮电大学学位论文快速图像文档分类的研究
北京邮电大学学位论文
快速图像文档分类的研究
捅要
计算机技术、多媒体技术以及Internet技术的飞速发展产生大量的图像信息。 纸制的图书、报刊杂志在存放上受时间、环境的影响比较严重,人们越来越倾向 于将图书、报刊杂志等资料用图像的形式存储起来,于是数字图书馆出现了。数 字图书馆使人们不出家门即可浏览图书资料,与此同时,如此大量的图像文档使 人们查找起来难度加大了。因此如何有效地、快速地从大规模的图像文档库中查 找出需要的图像文档是目前一个急需解决的重要问题。
目前,文本文档分类研究的比较多。而对于图像文档分类一般是利用OCR 技术先将其识别成文本文档,再利用文本文档的分类方法进行分类。由于分类的 图像文档的数量非常巨大,要处理这样的海量信息速度问题是个关键。现有的图 像文档分类,因为引入了OCR技术,使得复杂度大大增加,耗时比较多,难以 满足快速分类的需要。
本文主要研究脱离OCR技术的图像文档分类技术,以提高系统的运行效率。 为了达到这个目的,具体探讨了如何提取汉字图像的特征、如何提取图像文档的 特征、如何建立图像文档模型以及采用何种相似度等方面的问题。本文主要采用 了笔划密度编码的方法提取汉字图像特征,采用N—Gram模型表示图像文档,在 图像文档分类方法上使用了最邻近分类方法,在相似度计算方面采用了传统的余 弦度量方法。这种方法使图像文档的分类脱离了OCR技术,因而大大提高了系 统的运行效率。尽管分类精度有所降低,但满足了特定场合下的网络图像文档分 类的要求。
本文的内容主要由以下几个方面组成: l、介绍了现有文档分类技术:首先介绍了特征提取方法和文本分类方法,
并对各类方法进行了分析和比较;接下来介绍了几种常用的计算文档间距离的方 法;最后介绍了两种文档的表示方法:空间向量模型方法和N.Gram模型。
2、开发了建立图像文档数据库的两个软件工具:文档一图像转换工具和汉 字图像处理工具。使用这种工具,首先可以将文本文档中的每个汉字转换为图像 形式,使后续的研究可以直接在单个汉字图像上进行,省去了图像文档中汉字切 分的步骤,从而避免了因为汉字切分错误而带来的误差:其次可以方便的将文本 文档转换为图像文档,为创建图像文档数据库提供了方便:最后可以根据自己的 需要对图像文档进行各种处理,例如可以通过程序加入噪声来模拟真实的情况。 3、提出了使用笔划密度编码提取汉字图像特征、N-Gram模型表示文档、使 用最邻近分类方法进行文档分类及采用余弦公式计算文档间距离的快速图像文
北京邮电大学学位论文档分类方法。对系统实现、实验数据进行了描述,对实验数据进行了分析。实验
北京邮电大学学位论文
档分类方法。对系统实现、实验数据进行了描述,对实验数据进行了分析。实验 结果表明这种图像文档分类方法是有效的。
4、最后给出了总结及对后续工作的展望。
关键字
图像文档分类特征提取笔划密度编码图像文档模型N-Gram 模型相似度计算
北京邮电大学学位论文HIGH
北京邮电大学学位论文
HIGH SPEED DOCUMENT IMAGE CLASSIFICATloN
ABSTRACT
The rapid development of computer,multimedia and 1.ntemet techniques has produced very large amount of image.The book,newspaper and magazine are easily store
您可能关注的文档
- 论戴震的自由精神及其意义-伦理学专业论文.docx
- 论科学发展观及其对小康社会建设的意义-马克思主义理论与思想政治教育研究专业论文.docx
- 黎族传统体育作为中学课程资源开发的调查与研究-体育人文社会学专业论文.docx
- 快速城市化进程中房地产业可持续发展研究-区域经济学专业论文.docx
- 沈阳市公园体育现象的组织载体研究-体育人文社会学专业论文.docx
- 商代的农业经济与殷商文明-中国古代史 先秦史专业论文.docx
- 论以人为本的公共政策核心价值取向-公共管理专业论文.docx
- 审美趣味与历史转向隋唐书法“法度”形成过程研究-考古学及博物馆学专业论文.docx
- 流动比率指标研究-会计学专业论文.docx
- 论商业规模及其合理化-产业经济学专业论文.docx
- 硫族化合物纳米晶的合成与光学性质的研究-光学专业论文.docx
- 涉县大型岩溶区域地下水开发利用研究-水文学及水资源专业论文.docx
- 利用转基因技术进行耐盐基因转化花生的研究-生物化学与分子生物学专业论文.docx
- 论依法促进和保障企业技术创新-马克思主义理论与思想政治教育专业论文.docx
- 莲藕气调贮藏保鲜技术研究-农业推广·种植专业论文.docx
- 老年人疗养建筑的生态设计与技术应用-建筑学;建筑科学技术专业论文.docx
- 论课程的过程属性及其价值-课程与教学论专业论文.docx
- 论道路交通事故损害赔偿-法律专业论文.docx
- 宽带接入网关底层软件和防攻击的研究和实现-信号与信息处理专业论文.docx
- 升阳益胃汤对萎缩性胃炎大鼠胃组织形态和细胞凋亡率的影响-中医临床基础专业论文.docx
文档评论(0)