基于HMM的汉语文本识别后处理研究.PDF

基于HMM的汉语文本识别后处理研究.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于HMM的汉语文本识别后处理研究

中 文  信  息  学  报 第 13 卷 第 4 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 13 No. 4 基于 HMM 的汉语文本识别后处理研究 李元祥  丁晓青  刘长松 清华大学电子工程系  北京  100084 摘要  本文用 HMM ( Hidden Markov Model) 描述汉语文本识别后处理 ,将汉语语言和单 字识别这两个概率模型结合起来 , 以充分利用单字识别器提供的信息 。语言模型的参数由语 料库统计得到 ;单字识别模型的参数为条件概率 ,经理论分析 ,它可转化为后验概率来求解 。 在分析训练样本集单字识别结果的基础上 , 提 出一种统计方法估计候选字 的后验概率 。 HMM 在脱机手写体汉语文本识别中的实验表明 ,后处理性能除取决于语言模型外 ,还取决于 后验概率的精确估计 。 关键词  汉字识别  后处理  语言模型  隐马尔可夫模型  后验概率 Postprocessing Study of Chinese Document Recognition Based on HMM Li Yuanxiang  Ding Xiaoqing  Liu Changsong Dep art ment of Elect ronic Engineering  Tsinghua U niver sit y  Beij ing  100084 Email : lyx @ocr serv . ee . t singhua . edu . cn Abstract  In t his p aper , a po stp rocessing met hod using HMM ( Hidden Markov Model) for Chi nese document recognition is p ropo sed . HMM combines language model wit h single character recognition ( SCR) model to make t he best of SCR outp ut . The p arameter s of language model are derived from corp us , while t he p arameter s of SCR model are conditional p robabilities t hat can be converted into po sterior p robabilities by t heoretic analysis. On t he basis of SCR outp ut analysis , po sterior p robabilities of candidates are obt ained by st atistical met hod . Experiment s in off - line Chinese document recognition show t hat po st - p rocessing performance depends on efficient evalu ation of po sterior p robability , besides p roper language model . Key words  Chinese Character Recognition  Po stp rocessing  Ngram L anguage Model  Hidden Markov Model  Po sterior Probability 本文系“全国中文信息学术交流暨工作会议”推荐的优秀论文 (

文档评论(0)

duyingjie1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档