- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文字输入处理软件初析
文字输入处理软件初析
【摘 要】作为输入编码的后处理,各种类型输入软件智能化的共同目标是由软件来识别和选定重码字词与缩短平均码长并促使编码简化和规范化。
【关键词】计算机应用;汉字库;自然语言理解;模板匹配
一、前言
中文信息学会原理事长钱伟长教授于上世纪八十年代中期推出他亲自设计的“钱码”的同时指出:“理想的输入方法还没有实现”。十多年的实践表明:从汉字编码上下功夫,要得到一个易学、易用兼备的“理想的输入方法”,着实艰难,就像人们很难将蒸汽机车的热效率大幅度提高而不得不换成内燃机车、电气机车。
计算机软、硬件的发展速度以几何级数的形态增长。计算机系统资源的丰富为人们开发出实用的、算法各异的汉字输入智能软件创造了条件。各种类型输入软件智能化的共同目标是山软件来识别和选定上屏的重码字、词与缩短平均码长,促使编码简中北和规范化。
二、汉字库发展简介
1.GB 2312汉字编码字符集
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集―基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。
2.大字符集字库(又叫GBK字库)
国际标准化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,中、日、韩三国共同制定了《CJK统一汉字编码字符集》,其国际标准号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK(“国家标准扩展”的拼音缩写)字库。
3.新标准汉字
2000年3月,国家信息产业部和质量技术监督局在北京联合发布了《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27000多个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执行。GB 18030-2000作为GBK for Unicode 3.0的更新而诞生,它带有包含所有Unicode的扩展,完全向下兼容GB 2312-1980和GBK。
三、基于理解的智能输入软件
1.原理
主要利用汉语语法知识来消化同音字、词、以及化解歧义分词。通常表述为计算机能够识别和处理的一系列固定搭配、公式和自定义规则。在学科分类中属」几人工智能分支自然语言理解。这类软件是最旱出现的也是最理想化的智能输入软件。根据自动分词得到同音字、词的候选集.查找知识库得到相关的规则.再经过归约推理.得出转换结果。利用句内编辑实时修正转换错误和批量学习可以使得系统知识不断完善和充实,也就是自学习功能。
2.典型作品
哈尔滨工业大学王晓龙等研制的拼音语句输入系统InSun;
北京大学朱守涛研制的智能ABC。
3.优点从与存在的问题
优点:(1)这一种自行构造的“语法体系”大体上能够包括最基本和较少歧义的汉语语法知识,因此系统的正确率比较稳定。(2)软件开销视知识库的规模可大可小,小型系统在CPU为486的机器上就能运行。存在的问题:逐字连续拼音整句输入时,平均码长较长,采用简化拼音输入时键选率较高。偏重整句处理,当出现转换错误时,需要使用者回头去纠正,干扰了正常的思维。当前,建立知识库时,汉语知识表达的困难;自动分词过程中切分歧义等因素对分词精度的影响;输入语句的语法不规范都使键选率的降低受到限制。最理想化的模型没有达到理想化的效果,因此人们不得不寻找不那么理想却比较实用的理论模型与方法。
四、基于语用统计的智能输入软件
您可能关注的文档
最近下载
- 小学体育三年级下册全册教案表格式小学体育三年级下册全册教案表格式.doc VIP
- (2025)冠脉介入培训试题答案.docx VIP
- 毛利人的传统文化.pptx VIP
- 新西兰毛利文化课件.pptx VIP
- 固体物理学 -课件(3.1.1)--第三单元课件.pdf VIP
- 小学三年级上册体育计划及教案(全册)(表格式107页).doc VIP
- Dell戴尔Dell 32 Plus 4K QD-OLED显示器 - S3225QC用户指南.pdf
- 部编版小学二年级下册道德与法治第三单元《绿色小卫士》教材解读.pdf VIP
- 遗失补办户口本授权委托书.doc VIP
- 2020年自考《播音与主持创作基础》练习试题及答案.doc VIP
文档评论(0)