拼音到汉字自动转换技术的改进与实现.pdfVIP

拼音到汉字自动转换技术的改进与实现.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
拼音到汉字自动转换技术的改进与实现.pdf

第7卷 第24期 2007年12月 科 学 技 术 与 工 程 Vo1.7 No.24 Dec.2007 1671-·1819(2007)24·-6348·-05 Science Technology and Engineering @ 2007 Sci.Tech.Engng. 拼音到汉字自动转换技术的改进与实现 刘 佳 韩秀玲 (东华大学,上海201620) 摘 要 拼音到汉字转换一直是中文信息处理研究的一个重要方面。在前人的基础上改进了他们所使用的数据平滑算法, 给出了两种应用于不同场合的公式,使得在结果中能够得到不同要求的解。同时,给出了利用隐马尔可夫模型(HMM)来设 计实现这样一种转换,并且利用Viterbi算法来对模型进行求解的设计细节与方法。最后利用随意选择的语料库来对计算机 进行训练学习并给出了测试结果,同时分析了错误结果的原因O 关键词 拼音汉字转换 隐马尔可夫模型 Viterbi 语料库学习 数据平滑 中图法分类号 TP391.12; 文献标识码 A 随着计算机的发展,文档的处理开始从纸面向 以边想边输入,如果可以发展一种方法使得在输入 电脑过渡,其中汉字的输入速度成了影响计算机处 拼音的同时,计算机通过智能计算同步实现文字转 理信息快慢的一个瓶颈。汉语和英语在写法上存 换,那么就可以达到与英文接近的输入速度。 在很大的区别,一般汉字通过键盘输入拼音然后查 作为自然语言处理的重要内容,本文尝试利用 找对应汉字表,所以相比于英文,汉字的输入速度 隐马尔可夫模型来设计实现上面提到的汉语拼音到 仅为前者的二分之一,并且拼音输入重码率太高, 文字的自动转换。 输入效率低。针对这一问题,近些年来出现了一些 以词为单位的输入法,如紫光拼音、拼音加加等都 1 统计语言模型 具有此类功能,但是以词为单位的输入法相比于英 语的输入效率仍显不足。另外有一种快速的输入 1.1 Markov模型 法,称为形码,形码是反映依照汉字的字形笔画进 Markov模型可以看作由Markov源和与之相应 行编码的方法,五笔字型编码是这类编码方法的主 的转移概率所组成。Markov源是多个状态的集合, 要代表。五笔字型以其重码率低,输入速度快著 各个状态通过“转移”来相互连接。从状态S出发 称,被专业录入人员广泛采用,但其编码复杂、难 的一个“转移”t拥有一个概率值 (t),它表示从状 学难用,不适于“边想边打”,难于被一般用户所 态s转移到t所指向的另一个状态的概率。 接受。 Markov源的转移概率参数满足以下条件: 拼音的简单易学,必定是今后的发展方向。并 fQs(t)=0, 当t不是从状态s出发时; 且随着目前教育的普及,几乎人人都熟练地掌握汉 I∑Qs(t)=l。 语拼音,凡是具有小学以上文化程度的人,只要简 Markov源的特点是某一状态的发生概率仅与 单地加以说明,就可以掌握。与五笔不同,拼音可 其以前的状态有关,而和其他状态无关。 2007年9月7日收到 1.2 拼音到汉字自动转换的隐 Markov模型 第一作者简介:刘 佳(1983一),男,研究生,研究方向:智能算 (I-IMM J 法。 假设: 24期 刘 佳,等:拼音到汉字自动转换技术的改进与实现

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档