一个拼音汉字自动转换系统的设计与实现一个拼音汉字自动转换系统的设计与实现.pdfVIP

一个拼音汉字自动转换系统的设计与实现一个拼音汉字自动转换系统的设计与实现.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个拼音汉字自动转换系统的设计与实现一个拼音汉字自动转换系统的设计与实现

年  月 北 京 航 空 航 天 大 学 学 报   1996 8         A ug ust 1996 第22卷 第 4期 Jo urnal of Beijing U niv ersity o f Aero nautics and Astronautics V ol. 22 N o . 4 一个拼音汉字自动转换系统的设计与实现1) 成 华  尹宝林 ( 北京航空航天大学 计算机科学与工程系)   摘 要 给出了拼音汉字转换的定义, 并建立了一个带调拼音语句到汉字语句 的自动转换系统. 它由五个部分组成: 自动分词模块、词法分析模块、句法和语义分析 模块、语义修饰模块和显示模块. 其中句法分析是系统的核心, 在比较各种方法的基 础上选择了扩充转移网络( ATN ) 模型, 使 ATN 的优点和音字转换的特点得到较好 的结合. 测试结果表明, 系统的正确转换率达到97% . 关键词 汉字处理; 自动化系统; 转换; 网络; 双向词链表结构 分类号 TP 391; HD 87 在计算机汉语语音识别过程中, 把从声音到文字的输入过程分为两个阶段: 一是语音识别 阶段, 即把自然的声音转换为汉语拼音形式; 二是语音理解阶段或音字转换阶段, 即把拼音语 句转换为汉字语句. 音字转换作为汉语语音输入的后处理过程, 是语言式人机界面必不可少的 一部分. 由于汉语中音节数远远少于汉字个数, 因而存在着严重的重音现象, 因此, 同音词识别 就成了音字转换中的关键技术. 目前这方面的研究已广泛开展, 类似的系统见文献[ 1~4] . 这些系统的词库从8 000词到 5. 8万词不等, 识别句型100多种, 识别正确率为92% ~98%. 虽然各种系统纷纷涌现, 但还没有 一个能达到真正实用, 这一领域还有许多问题需要解决. 1 拼音汉字转换的定义 我们首先给出拼音汉字转换的定义[ 5] , 它是进行转换研究的基础. 定义 拼音汉字转换器 Z 是一个五元式( I , C, A , R , G ) . 其中, I 是语音代码集, C 是汉语 词汇集合, A 是词汇属性的集合, C×A 构成终止符集. R: I + →I + 是拼音代码序列 I + 到分段拼 音代码序列 I + 的检索和切分规则. G : ( I ×A ) + →( C×A ) + 是汉语语法规则集. 在拼音汉字转换中, 输入是汉语拼音序列 T ∈I + , I 是汉语拼音的集合, I { 〈r , v, t〉?r ∈ 声母, v∈韵母, t∈声调} . 在检索和分词规则 R 的作用下, T 被分解为序列 P = 〈P 1, ?, Pn〉, Pi∈I + , n 是对 T 分词的段数. 由于汉语中存在着严重的重音现象, Pi( i= 1?n) 一般都对应多个汉字或词汇, 而每个汉 语词汇又至少对应一个语法属性, 因而 P i 有一个与其对应的词汇集和属性集组成的对偶〈Ci, A i〉, 这时就需要通过汉语词法、句法和语义知识对同音词增加约束, 从而得到一个或多个满 足语法 G 的与 P 对应的词汇和属性对偶序列〈〈c1, a1〉, ?, 〈cn, an〉〉, ci∈Ci, ai∈Ai, Ci C, A i A , i= 1?n.

您可能关注的文档

文档评论(0)

zyongwxiaj8 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档