- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统一码 该方案取5种基本笔画:“横(一)”(含“提”)、“竖(丨)”(含“竖勾”)、“撇(丿)”(包括“啄”)、“点(丶)”(含“捺”)和“折(乙)”(包括左折和右折),并且将这五种笔画赋予顺序值“1”-“5”。 数字统一码将汉字结构归纳概括为四种基本结构。它们是:上下结构,左右结构,包围结构,嵌套结构。同时规定一个汉字可以取一至六码。 字445576 各359251 右689 左右数码 利用数字来表示汉字的笔划、拼音和部件,其特征是将左右(含左中右)结构的汉字定义为“左右字”,再按书写顺序把“左右字”分为“左部”与“右部” 。如下表所示: 把“左右字”以外的汉字都定义为“整体字”。根据规则进行数字编码。 汉字编码国家标准 国家标准 说明 GB13000.1 《信息技术多八位编码字符(UCS)》 GB18030 《信息技术 信息交换用汉字编码字符集 基本集的扩充》 GB/T 18031 《信息技术 数字键盘汉字输入通用要求》 GB15834 《标点符号用法》 GB/T 19246 《信息技术 通用键盘汉字输入通用要求》, 国家语委的规范 规范 说明 GF3001 《信息处理 GB13000.1字符汉字部件规范》 GF3002 《GB13000.1字符集汉字笔顺规范》 GF3003 《信息处理用汉语拼音方案表示规范通用键盘》 与汉字编码有关的标准与规范说明 在编码字符集方面 在键位设置方面 在标点符号方面 在部件规范方面 在笔顺规范方面 汉字键盘编码和输入系统的性能指标 易学性 “学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯”。GB/T 18031对数字编码更进一步提出要求:“做到上手能用”。 汉字输入平均码长 重码字词键选率 GB/T 19246《通用键盘汉字输入通用要求》给出的指标 GB/T 18031(数字键盘)给出的指标 编码类型 平均码长(键/字) 汉语拼音,笔画为主的简易编码 <3.2 形码(部件码)、音形码(形音码)、双拼 <2.2 编码类型 平均码长(键/字) 逐字字段输入字 <6 词混合输入 <4 GB/T 19246《通用键盘汉字输入通用要求》给出的指标 GB/T 18031(数字键盘)给出的指标 编码类型 重码字、词键选率(%) 汉语拼音,笔画为主的简易编码 <6 形码(部件码)、音形码(形音码)、双拼 <1.5 输入方式 平均码长(键/字) 逐字字段笔画、部件码输入 <8 ?字、词混合笔画、部件码输入 <10 ?逐字字段拼音输入(10键位) <13 逐字字段拼音输入(8键位) <14 字词混合拼音输入(10键位) <12 字词混合拼音输入(8键位) <14 * 苏州大学计算机科学与技术学院 第四章 汉字编码技术 汉字编码的概念 从广义角度看 字典/词典编码方法,用于在字典和词典中的快速定位 ,常见的方法:部首、笔画、拼音和四角号码等 从狭义角度看 汉字键盘编码,用计算机键盘上的按键为汉字编码 汉字编码的发展 20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率较低 20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发展 20世纪90年代 萧条期 进入21世纪后 将是又一个发展期,数字编码方案将占主导 汉字编码中的几个概念(1) 字符集/字汇和词汇 字符集/字汇 多/少 词汇 多/少 特指某个编码方案编码词组的集合 码元 组成输入码的字符集合称为码元。 如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字 。 汉字编码中的几个概念(2) 码长 输入码的长度称为码长。如输入码“123”的码长为3 等长编码,如区位码等 不等长编码,如拼音码、纵横码等 单码和重码 一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码如对应的汉字和词组只有一个时,称这个汉字和词组为单码。 汉字编码中的几个概念(3) 编码空间和编码效率 所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区位码的编码空间大小为:C=104,即10000个。 编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为6763,则编码效率为6773/10000=67.73%。 汉字的墒(1)——信息量的概念 熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。 最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能
您可能关注的文档
- 磁场电磁感应习题课.ppt
- CAD讲义学习autoCAD第一步.ppt
- 大气污染控制演示文稿.ppt
- 平面图形几何性质材料力学.ppt
- 大学国际贸易经典第11章区域经济一体化.ppt
- 工程形体表达的方式.ppt
- 第四章线性控制系统时域分析.ppt
- 基因对性状的控制要求.ppt
- 大学英语难词辨析、常用方式表达.ppt
- 大学语文第九讲鲁迅.ppt
- DB44_T+2767-2025河口海湾总氮、总磷水质评价指南.docx
- 中医药科技成果转化评价技术规范.docx
- DB44_T+2750-2025农村供水工程数字化建设技术导则.docx
- DB44_T+2769-2025金属矿山生态修复技术规范.docx
- 镁合金航天航空零部件长效防护微弧氧化膜层工艺规范.docx
- 《甘青青兰中绿原酸和胡麻苷含量的测定 高效液相色谱法》发布稿.pdf
- DB44_T+753-2025声环境质量自动监测技术规范.docx
- 信息技术 智算服务 异构算力虚拟化及池化系统要求.docx
- DB44_T+2759-2025黄荆栽培技术规程.docx
- 废生物制药溶媒再生乙腈.docx
最近下载
- 一级生物安全实验室应急预案培训计划.docx
- 《大数据分析与应用》全套教学课件.pptx
- [全国高校统编教材法语][北外马晓宏版][1-4册][第二册词汇表].doc VIP
- 初中化学竞赛辅导培训.ppt VIP
- 灵魂三问,思辨推进,辩证回应——2024北京高考卷“历久弥新”作文讲评课件.pptx VIP
- 四年级语文上册复习课件-知识点专项复习 (共22张PPT)部编版.pptx VIP
- 宪法宣传优秀课件.ppt VIP
- 多频微带天线设计.docx VIP
- T CAQI 252-2022《无化学阻垢剂饮用水处理器》.pdf
- 部编版四年级上册语文-生字专项期末总复习复习课件 (共21张PPT).pptx VIP
原创力文档


文档评论(0)