- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文档识别及其在藏文古籍识别中的应用探讨.doc
文档识别及其在藏文古籍识别中的应用探讨
摘 要:文档识别技术能自动识别文档中的文本、图片、表框等信息,为纸质文档的全文数字化提供了便利。文章分析了文档识别过程中预处理、版面分析、行字切分、特征提取以及分类的流程,对文档识别技术的发展做了一个简单的综述,并结合藏文古籍识别的具体应用,对该技术在藏文古籍识别方面的应用难点进行了探讨。
关键词:文档识别;版面分析;藏文古籍
中图分类号:G273.3
文献标识码:A
一、引言
从20世纪90年代开始,文档分析与识别吸引了越来越多的研究者,目前有多个专门的国际会议对该项工作进行研究。
例如,ICDAR(International Conference on Document Analysis and Recognition),ICFHR(International Conference on Frontiers in Handwriting Recognition),DAS(IAPR International Workshop on Document Analysis Systems)等,在相关领域的期刊(IEEE Transaction on Pattern Analysis and Machine Intelligence、Pattern Analysis and Applications、International Journal of Computer Vision、International Journal on Document Analysis and Recognition等)上也有大量文档分析识别相关的论文出现,整个领域的研究工作处在一个快速发展的阶段。
二、文档识别流程
从文档识别工作的流程步骤上来说,可以分为图像预处理与版面分析、行字切分、特征提取与分类等模块[1]。
1. 预处理与版面分析
预处理阶段主要工作是去噪以及图像的增强和修复,之后进行版面分析,将图像分为文字区域以及非文字区域,获取结构以便于重编和出版。文字区域需要进一步确定该区域的文字是属于题目、正文、标注或者其他信息等;对于非文字区域,则要判别其是插图、背景或者是噪音,并按照判别结果分别加以处理。在版面分析过程中,需要考虑的是不同类型区域特征选择的问题和不同的分析方法及其效果评价。
2. 文本行字切分
对于完成了预处理以及版面分析后抽取的文字区域,需要进一步的检测,将文本行以及单字进行分割。在古籍文档中,文本大多为约束文本和非约束文本混合出现,其文本行往往是不一致的倾斜和弯曲,如何动态调整切分距离,自适应处理倾斜和弯曲文本是这一步需要考虑的问题。对于切分好的文本行,需要选择合理的文字切分算法对单个字符进行分割。
3.特征提取与分类
基于统计的方法是模式识别的一种经典方法,目前在文档分析识别上使用较为广泛的方法有SVM方法、贝叶斯方法、隐马尔可夫模型等,其关键在于统计同一种字符所特有的共有性质或者相对稳定的分类特征作为识别向量。这种向量应当具有稳定的二维平面特征、水平或者垂直直方图特征等。在统计方法中,这个边界是基于每个类的模式的概率分布的,这点必须预先知道或通过学习获得。
三、文档识别的发展
从文档识别研究的文字类型上来说,由于文档识别技术最初源于西方国家,因此拉丁文字符文档识别发展最早,目前成果也最多。随着其他国家地区科研水平的提高,越来越多的非拉丁字符识别技术有了长足发展。例如中文、日文、阿拉伯文、斯拉夫文、蒙古文、孟加拉文、藏文等。
从文档识别研究的对象上来说,其源于OCR技术,最初的目标是识别特定字体的印刷字符,后来发展到多字体的混编的印刷文档,随后,手写体文档的识别成为一个研究的新内容。与此同时,研究对象的时间也不仅仅局限于现代文档的识别研究,大量的古籍、历史文档、古代手稿、艺术作品成为新的研究对象。
四、藏文古籍识别
1.藏文古籍识别的意义
藏族拥有悠久辉煌的文化历史,在我国,藏文古籍文档规模宏大,其数量仅次于汉语古籍文档。为了更好地保护和利用这些文档资料,对其进行全文数字化是一个亟待完成的工作。目前国内外已有一些藏文数据库建成使用,例如“尼泊尔-德国手稿文献保存计划”、藏文文献输入计划、藏传佛教资料信息中心等。然而现有的数据库,大都是将藏文古籍文献扫描成图加以保存,不便于对其进行检索以及深度开发利用,更好的手段是利用文档识别方法,对其内容进行识别并转换为内码形式进行保存。
2. 藏文古籍字体
藏文自吞弥桑布札创制后经过千余年的实践创新,字体发展到几十种。从大的方面讲,可归纳为乌金体与乌梅体两大类。乌金体即有冠体,整体书写效果整齐划一。吐蕃时期
文档评论(0)