- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
总结文字输入处理软件
总结文字输入处理软件
【摘 要】汉字是中华民族传统文化的核心和信息交流的主要工具,古老而复杂多样的汉字属于二维,不像英文等西方文字那样是一维线形文字,可以直接输入计算机,而是需要采用特殊的汉字输入法软件.汉字输入计算机是计算机中。第一个环节,汉字输入技术直接影响着中文信息处理的发展.本文着眼于汉字输入法软件在系统中的设计和开发过程,提出一种简单、方便的汉字键盘输入法。首先统计了国标二级字库中汉字笔画信息的各种数据,这些数据主要包括:汉字的平均笔画数及按使用频度加权的平均笔画数、能与其它字区分开的汉字前若干笔画的平均数、以各种笔画起笔的汉字数、各种笔画在汉字字库中的出现次数、汉字字库中笔画相同的汉字以及汉字字库中相邻笔画的频度等。根据这些统计数据,我们采用书写汉字时的笔画顺序作为汉字输入码,设计了笔画码汉字输入法和实现该输入方法的键盘。
【关键词】中文信息处理;自然语言理解;语用统计;模板匹配
中华文化的博大精深给中文应用者提供了纵横驰骋的广阔空间,由于个人的受教育程度、职业需要及文字风格的千差万别,多数人都需要一个完全按照个人意愿编制出来的词库,即具有个性特征的个人专用词库,从这以意义上说,从Windows95开始为用户提供的“输入法生成器”。实在是功德无量。
Windows98问世以后,由于硬盘与内存容量的不断升级,以及CPU反映能力的加速,使得在Windows平台下的自定义输入法有了更加广泛的应用空间,而且突破了6.5万词条的限制。从理论上说,自定义的输入法可以做得无穷大。目前我个人使用的《沈沉词库》的词条就已达6万条。WindowsMe与Windows98是姐妹版,同样可用自定义的方法来生成自己个性化的输入法。但WindowsXP却把原先的“输入法生成器”取消了,即使把Windows98下的“输入法生成器”拷贝到WindowsXP,虽能转换码表,但却不能安装。不论微软对WindowsXP如何地自吹自擂,但取消“输入法生成器”,无论如何是失算的。
一、基于计算机汉字输入的研究
应用需要一些软件的支持,才能科学,优化,好用.目前不少发明人已拥有一些专用软件,为有效利用这些软件资源,节省人力时间,降低研究成本和周期.建议:这些软件集中起来,统一管理。让需用者登记申购,一次发放。这样供,需,管均受益,并助学术繁荣,软件举例:
1.静态重码率自动收索统计软件searcherro
2.汉字词汇自动排序删除重复软件
3.各种输入法教学软件等
4.计算机降低重码软件
5.计算机操作记忆增速软件.
6.汉语各种专业词汇库(20多专业)软件
7.汉语综合词汇库软件
8.直接挂接进入windows9x编码生成器的软件
二、基于智能规范码输入平台的实现
智能规范码输入平台是有八个编码方案的复杂系统。由智能规范拼音、智能规范双拼、智能规范形码、智能规范数码和普通规范合码所组成。其中普通规范合码包括规范拼音、规范双拼、规范形码、规范数码。智能、普通规范数码在数字键区输入汉字。平台初始状态为智能态。智能规范拼音最大输入6码,智能规范双拼与智能规范形码为2码,智能规范数码为3码。用快捷键相互转换。智能状态由转换符转至普通状态时,首字符为数字时码长最长为6码,输入普通规范数码,首字符为字母时码长最长为4码。不足码长时用空格返回智能状态。
智能规范码的用户范围是普通人群,特别是中小学生。所以学生版在GBK字符集中异体字与不规范字不参加编码。由于GBK的字符集里包含了中日韩三国所使用的汉字,所以日本和韩国用的汉字也不参加编码。普通版为GBK字符集,超集版为GB18030字符集。
智能规范码输入平台采取双智能输入的混合输入方式,可以减少输入量即减少码长,减少键选率。加快了输入速度。
汉字不再需要人工编码,智能非智能输入方法已有长时的研究和应用,关于智能混合输入,作者进行尝试,特点很多,尤其对词的岐义处理具有一定的特色。可以说是具有独特风格的智能汉字输入平台生成系统。
三、基于语用统计的智能输入软件
1.原理
主要利用语用统计的数据来消化同音字、词,以及化解歧义分词。在学科分类中属于运筹学范畴。
使用概率统计运筹决策的方案很多,文献[5]通过统计字字相关的同现概率矩阵来完成汉语语用统计库结构.这个矩阵的大小是固定不变的.只与字符集的大小有关。文献[5]作者通过搜索了500万字语料给出了一个3673 X 3673的同现概率矩阵。文献[4]是基于几理解和基于语用统计相结合的设计。该设计根据分词后的输入语句查找知识库.用句法、词法、语义和自定义的规则作为制约对文章进行解析推理,当存在同音词时。采用最优评价法来确定最佳选择作为转换结
文档评论(0)