- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种语句级汉字输入技术的研究
徐志明等 : 一种语句级汉字输入技术的研究
一种语句级汉字输入技术的研究①
②
徐志明 王晓龙 姜守旭
( 哈尔滨工业大学计算机系 哈尔滨 150001)
摘 要 提出了一种语句级汉字输入技术 , 把 Ngram 统计语言模型与语言规则结合起
来共同指导拼音流到文字流的转换过程。描述了拼音流自动切分、词网格生成、最优语
句候选搜索和系统的自适应学习机制等技术。该语句级汉字输入技术的音字转换正确率
达 90 28 % , 目前它已用于Microsoft 公司的微软拼音输入法中。
关键词 Ngram , 音字转换 , 语言元素
分词 , 用户可以把主要精力放在输入内容上 , 脑力
0 引言 劳动强度远比字词级输入法低 , 输入速度也快得
多。
汉字键盘输入技术的研究一直是中文信息处 本文提出了一种语句级汉字输入技术 , 把 N
理的研究热点之一 , 也是智能化人机接口的一个重 gram 统计语言模型与语言规则结合起来共同指导
要组成部分。它根据输入单位可以划分为三种 : 单 拼音流到文字流的转换过程。该语句级汉字输入技
字级汉字输入法、词组级汉字输入法和语句级汉字 术不仅可以处理语言的近邻搭配关系 , 也可以处理
输入法[13 ] 。过去 , 研究人员的工作主要集中在前 语言长距离搭配关系 , 音字转换率达到 90 28 % ,
两种方法 , 即字词级汉字输入法。这类汉字输入法 目前已经应用于Microsoft 公司的微软拼音输入法
主要利用汉字的音、形、义方面的容易记忆的信息 中。
对汉字的字词进行编码 , 它很难同时满足快速性和
易学性。通常难学习的汉字输入法候选字词较少 , 1 语句级汉字输入法的统计语言建模
输入速度较快 ; 而易学习的汉字输入法候选字词较
多 , 输入速度较慢 , 并且还存在一个严重缺点 : 需 语句级汉字输入问题可以使用信息论中的信源
要用户人工分词 , 即每次只能输入一个字词 , 且当 信道模型进行描述。信源信道模型描述了通过一
输入一个字词后就需要用户干预选择正确的候选 个噪声信道的信息复原问题。假设有一个信源模型
字。这样的操作方法容易打断人的连续思维 , 加重 p ( I) 和一个噪声信道模型 p ( O | I) , 后者描述
操作员的脑力劳动。本文研究的语句级汉字输入技 了给定一个输入 I 对应的输出 O 的可能性。我们
术是以短语或句子为基本输入单位 , 它具有如下优 的任务是, 根据带有噪声的输出 O 还原经过噪声
点 : ( 1) 采用自然的拼音输入方式 , 简单易学 ; 信道的原始输入信息 I 。这可以简略地表示为: 给
(2) 采用拼音流自动切分技术 , 可以连续输入拼音 定输出 O , 目的要发现最可能的输入信息 I , 即:
流 , 无需用户人工分词 ; (3) 根据上下文信息对候 p ( I) p ( O | I)
I = argma
原创力文档


文档评论(0)