基于深度学习和知识策略的蒙古文古籍识别研究-计算机应用技术专业论文.docxVIP

基于深度学习和知识策略的蒙古文古籍识别研究-计算机应用技术专业论文.docx

  1. 1、本文档共228页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于深度学习和知识策略的蒙古文古籍识别研究-计算机应用技术专业论文

优秀毕业论文 精品参考文献资料 原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究 成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得内莹直太堂及其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 苟勾互 指导教师签名: 壹生 日 期: 塑丛丛。2 a 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有 权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和 磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇 编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古 大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期 间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名: 盏囱荭 指导教师签名: 壹生 Ft 期:砬z么:壁£。主夕 日 期: 砬!笸!垒.圭:星坌 万方数据 内蒙古大学博士学位论文基于深度学习和知识策略的蒙古文古籍识别技术研究 内蒙古大学博士学位论文 基于深度学习和知识策略的蒙古文古籍识别技术研究 摘要 蒙古文古籍为研究蒙古社会政治和历史文化提供了丰富和可靠的资 料。为更好地抢救、整理和利用蒙古文古籍,内蒙古大学图书馆启动了古 籍电子化工作,将其扫描转换成图像格式存储,并向读者提供了电子化服 务。但是,古籍图像不能再编辑,且检索效率低,分析和挖掘难度大,亟 需利用文字识别技术将其转换为文本文档。蒙古文古籍采用木刻雕版工艺 印刷,具有排版不够规整、字形差异显著、文字颜料扩散和脱落等特点, 给识别工作带来很大挑战。本文以《御制蒙古文甘珠尔经》为研究对象, 在蒙古文古籍识别方面开展了一系列研究,主要内容如下: 1.本文提出了蒙古文古籍单词的有效识别方法。在分析整词识别和基 于切分的单词识别两种方案优缺点的基础上,结合蒙古文古籍单词特点, 提出了整词识别和基于切分的单词识别的混合策略,对高度较低且字形基 元切分难度大的单词采用整词识别的方法进行识别,对其余单词采用基于 字形基元切分的识别方法进行识别,通过实验确定了两种方法的选择依据。 2.本文提出了半自动样本选取方法。为达到理想的识别精度,需要大 量样本训练识别中使用的卷积神经网络,为克服人工选取样本效率低的缺 点,提出了半自动的样本选取方法,首先利用分类器对未分类的全部样本 进行粗分类,然后人工去除每类中不正确的样本,最后将每类中剩余样本 作为最终训练样本。训练样本选取分类器的过程采用了书写者适应性调整、 利用形态学方法生成伪训练样本、多次循环策略。 3.本文提出了蒙古文古籍单词的字形基元切分方法。由于蒙古文古籍 单词存在严重的形变和字形基元重叠现象,针对机器印刷体蒙古文单词的 切分方法难以奏效。分析了蒙古文古籍单词外形特征,提出了基于轮廓分 析的字形基元切分方法,首先提取单词轮廓上的关键点,其次利用轮廓关 键点定位单词主干线,最后利用轮廓关键点和主干线信息生成分割线。为 简化轮廓关键点检测步骤并避免轮廓噪声的影响,利用多边形作为单词外 轮廓的近似。 万方数据 基于深度学习和知识策略的蒙古文古籍识别研究4 基于深度学习和知识策略的蒙古文古籍识别研究 4.本文提出了三种基于知识的策略来提升单词识别精度。在基于切分 的单词识别方法中,字形基元的识别结果用于生成单词的识别结果,通过 分析识别结果,发现导致单词识别错误的原因是字形基元切分不合理和字 形基元识别错误。为进一步提升单词识别精度,结合蒙古文的构词知识提 出三种策略并应用于字形基元识别环节,分别是整合主干线信息策略、字 形基元分组策略,以及识别欠切分和过切分片段策略。 5.本文提出了古典蒙古文词典的构建方法和基于字形基元相邻规则的 错误检测方法,并评测了基于词典和基于字形基元相邻规则的错误检测方 法各自的性能,分别采用加权编辑距离模型和噪声信道模型进行错误校正, 根据识别结果和字形知识为这两种模型分配编辑操作的权重,结合识别方 法简化噪声信道模型以减少计算量。 关键词: 蒙古文古籍;整词识别;基于切分的单词识别;卷积神经网络; 知识策略;错误校正 万方数据 内蒙古大学博士学位论文HISTOIUCAL 内蒙古大学博士学位论文 HISTOIUCAL MONGOLIAN DOCUMENT RECOGNITION BASED ON DEEP LEARNING AND KNOWLEDGE S

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档