- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
拼音输入法的设计与实现开题报告
拼音输入法的设计与实现
开题报告
班号:计0402-12(304160212) 姓名:李杜松
指导教师:吕学强
一.综述
研究意义:虽然在汉字编码输入方面已经取得了不少进展,汉字能否输入计算机的问题已经解决,但是汉字编码输入理论一直是一个薄弱环节,迄今为止仅有的一本理论性较强的汉字键盘输入专著并没有引起输入法实践者足够的重视。
同时,在实用性方面,人们对汉字编码输入的现状仍然十分不满意,新的汉字编码输入法还在不断地涌现,以期待克服现有输入法存在的诸多问题。不同时代有着不同的背景,从而决定了解决问题的不同方法。汉字编码输入技术问题的解决思路主要取决于人、机、文、码四个方面。
在人方面,计算机的普及造就了巨大的用户群体,而且非职业打字员用户占绝大多数,其中还包括了大量的中小学生,中国已进入了非专业打字时代。非职业打字员一般都没有经过专业的打字培训,知识背景也大不相同。因此,如何使输入法易学易用和保持一定的速度是问题的关键。最好是,输入法在入门时基本上不用学习,熟悉后又有提升速度的手段,甚至达到或超过传统职业打字员的速度。但是当前的输入法往往是易学易用的输不快,如智能ABC;而输得快的难学难用,如五笔字型。非职业打字员的另一特征是根据腹稿录入,即边思考边看着屏幕打字。因此,如何利用好用户看屏输入这一点来进行反馈设计是极为重要的,它直接影响着输入法的质量。但是,目前的输入法对反馈设计没有引起足够的重视,有的过于强调盲打而丧失了易学易用性,有的又过于依赖人机交互而丧失了易用性和输入速度。另外,因为现在大多数用户都独自拥有计算机,所以输入法一般为某个用户专用,可以针对特定用户建立个性化的字词编码库,以提高用户的输入效率。但是,现在的输入法往往只有一个通用编码库,随着编码字词条目的增加就会出现大量的重码,无用词的比例也增大,进而影响输入法的性能。最后,在中小学进行打字教育时,汉字编码的规范化问题和汉字编码与语文教育的结合问题变得十分重要。在这一点上,目前很多流行的输入法都是不合格的。很多人批评五笔字型对汉字不合规范地乱拆分会导致语文教学和写字的混乱,五笔字型也因此未能进入中小学教育。即使是教育部推荐的认知码也有许多人对其规范性提出异议。
在机方面,计算机处理能力已相当强大,手机、PDA等手持智能设备已广泛使用,数据库技术已非常成熟。当今微型计算机强大处理能力对于个人用户来说有很多富余,使得我们可以增大程序的时间和空间复杂度来提高输入法的性能。手持智能设备的流行要求输入法在通用键盘和数字键盘上的操作方式尽量统一,以减少用户的学习和使用负担。大型的数据库,如SQL SERVER,在微机上的运行速度完全可以满足输入法检索字词的要求,所以我们可以采用数据库来存储海量字词及其属性,甚至扩展输入法的功能到学习、查询和辅助翻译等领域。目前,除了语句型输入法充分地利用了富余的计算机资源外,其他的字词型输入法在资源利用上还停留在第二代输入法的水平上;数字键盘输入法一般自成体系,与通用键盘输入法缺乏衔接;数据库技术没有在输入法里得到应有的应用。
在文方面,对于非职业打字员而言,输入文本以常用字构成的连续真实文本占绝大多数,而且对某个用户来说文本一般局限于特定的领域。因此,这类文本的冗余度比汉字文本整体的冗余度要高,可以动态地调整码长,给常用字词以短的编码,实时地、自动地创建新词组,从而充分地压缩冗余度,提高输入速度。对于离散文本和罕见字的处理,输入速度不是关键,关键是要有简单的手段实现输入。目前的输入法往往对输入文本的性质不加区别地对待,结果使得输入法的整体效率收到了影响。
在码方面,目前流行的各类编码都存在各自的问题。字词型输入模式僵化,缺乏创新。空格键作为简码字词的结束键减低了编码效率;看打方式的设计被错误地用到了想打方式上,强调盲打而忽视了反馈信息的作用;对码长的过度限制(通常为4)导致重率上升,限制重码又使可使用的词组量受限,不限制重码又会增加人机交互而影响输入速度;未能充分地利用汉字丰富的笔画信息。语句型输入模式不太适合中文,其转换正确率不高,效率不高,编码识读性差,这与假名汉字转换已占统治地位的日文输入形成了鲜明的对比。
已有成果:第一代汉字编码输入法(~1986)以单音节的字为单位输入:简拼和首尾码。简拼是纯音码,使用的是介于全拼和双拼之间的一种拼音方法。首尾码是一种纯形码。这两种方法都不支持联想,也不支持词组,都有很多重码。第二代汉字编码输入法(1986~90代末)以词语(包括单音节和多音节)为单位输入:五笔字型是最典型的纯形码部件类方案。较低的重码率。不具备在线自造词的功能。双音输入法是一种纯音码。以词定字、反向联想。不具备在线自造词的功能。自然码是最具代表性的音形码。大大减少了单字的重码。具备在线自造词的功能。第三代汉字
您可能关注的文档
最近下载
- 教科版小学科学四年级下册总复习试题(连线题).doc VIP
- 长虹LED42C2000黑屏故障通病维修方法分享.doc
- 教科版(2025秋)四年级科学下册总复习之连线题(含答案) .pdf VIP
- 2025年机修钳工(高级技师)职业技能鉴定理论考试题库资料(含答案).pdf
- 三字经全文带拼音完整版 打印版.pdf VIP
- 科教版小学科学四年级下册期末复习专项训练题04——连线题(含答案+详细解析).docx VIP
- 江苏省苏北四市(徐州、宿迁、淮安、连云港) 2025届高三第一次调研测试思想政治试题(含答案).pdf VIP
- 消防员心理培训课件.pptx VIP
- 2024年高考政治真题汇编《哲学与文化》.docx
- 风力发电场生态保护及恢复技术规范-DB21.PDF
文档评论(0)