近代书籍特化.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
近代書籍に特化した 多フォント活字認識法 芦田尚美*,髙田雅美*,木目沢司?,城和貴* *奈良女子大学大学院 ?国立国会図書館 発表の流れ 背景 目的と問題点 文字認識の手法 実験 まとめ 背景 国立国会図書館 近代デジタルライブラリー 蔵書のデジタルアーカイブ化 Webでの閲覧が出来るサービス 問題点 テキスト化の必要性 明治~大正期の書籍 約160,000冊 そのほとんどが画像データ →全文検索の適用不可 書籍の問題 フォントの種類が不明 旧字体/異字体を含む 低品質の印刷  →従来のOCR技術を適用できない 旧字体 文字認識の流れ 前処理 特徴抽出 PDC特徴 PDC特徴 PDC特徴 PDC特徴 特徴ベクトル 特徴ベクトルの次元 全走査方向(8方向) ×  深度(外郭深度N=3) ×  寄与度成分(4方向) ×  区画(16区画※)  = 1536次元ベクトル となる 文字の識別 Support Vector Machines 原理 実験 実験データ 近代デジタルライブラリーの書籍画像から切り出した文字 文字種:10種類の文字 「行」,「三」,「人」,「生」,「十」,「来」,「小」,「中」,「年」,「彼」の10種 教師データを各クラスにつき50個生成し,訓練 LIB-SVMを使用 文字画像例 実験手順(1) 前処理 2値化 3×3のメディアンフィルタ(ノイズ除去) 余白の除去 大きさの補正(線形なサイズ補正) 位置の補正 特徴抽出 PDC特徴の抽出 実験手順(2) SVMでの学習 各クラスにつき50個の画像を教師として選択 グリッドサーチによってSVMのパラメータを決定 教師データの学習 未知データを用いて評価 実験環境 CPU:Intel Pentium D 2.80GHz OS:Windows XP SVM:LIB-SVM ver 2.88 実験結果 認識率 97.8% 内訳: 誤認識した文字(1) 誤認識した文字(2) 誤認識した文字(3) ノイズが多い 誤認識した文字(4) 「中」と「十」は共に垂直?水平方向に太い文字線がある 類似した文字形状 誤認識した文字(5) 「中」と「小」は共に画像中央に長い縦線とその左右の短い縦線を持つ 類似した文字形状 ニューラルネットワークに よる実験 3層の階層型 中間層:64ユニット 誤差逆伝播法 1000回の学習 教師データに対する誤答率0.8% 学習時間:12248[sec] (参考)中間層32ユニット 3000回の学習で教師データに対する誤答率10% ニューラルネットによる 実験結果 テストデータに対する認識率 77.6% 考察(SVMによる認識) 誤認識 ノイズが多い ノイズの点を文字線と認識 余白の除去が適切に行われなかった 明瞭な文字画像を誤認識する場合もある 類似した特徴を持つ文字と誤認 明確な理由が判明しない誤認もあった 誤認が多いクラス 学習例がテストデータ数と比較し少ない 考察(NNによる学習) 中間層64個で学習 認識率77.6% 中間層32個では不足 学習時間はSVMより長い SVMの約7.7倍 まとめ 近代書籍の活字認識を行った 97.8%の精度で10種の文字を認識できた SVMはNNより適している 改善点 ノイズ除去アルゴリズムの改良 文字種が多くなる→階層的な分類で対応 文字領域の切り出しの自動化 * Nara Women’s University * Nara Women’s University 近代活字OCRの必要性 入力 前処理 特徴抽出 識別 入力 前処理 特徴抽出 識別 ノイズの除去 画像余白の除去 大きさの補正 位置の補正 入力 前処理 特徴抽出 識別 PDC(Peripheral Direction Contribution:   外郭方向寄与度)特徴 文字線の 複雑さ 方向 接続関係 相対位置関係           を抽出する 示 8方向から走査 走査 ぶつかった点から8方向に矢印を伸ばす 長さが方向寄与度となる 方向寄与度→どの向きの成分が大きいかを表す 第2,第3深度の成分が 0でない→文字線が複雑 0である→文字線が単純 正反対の方向の矢印の長さを足し合わせ,4方向の長さを得る 深度1 深度2 深度3 走査方向 第1外郭形状 第2外郭形状 第3外郭形状 元画像 あ ※各方向128回の走査の後, 16等分して平均 入力 前処理 特徴抽出 識別 SVM(Support Vector Machines)を使用 機械学習の一種 高い汎化性能 マージン最大化 カーネルトリック 比較的単純な仕組み 他の機械学習と比較し同等以上の性能 x w b 分離超平面 高次元特徴空間に射影 →平面で分離可能 × ○ 線形

文档评论(0)

22255990 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档