《汉字编码.pptxVIP

下载本文档

17
1
约 33页
2016-12-30 发布于北京
举报
版权申诉

《汉字编码.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

外码、内码、字型码文本信息的输入人工输入自动识别输入键盘输入联机手写输入语音输入印刷体识别手写体识别外码——文本信息的输入人工输入：通过键盘、手写笔或语音输入方式输入字符特点：速度慢、成本高，不适合需处理大批量文字的应用自动输入：将纸介质上的文本通过识别技术自动转换为文字的编码特点：速度快，效率高文字的自动识别分为：印刷体识别和手写体识别外码——文本信息的输入汉字多，每个汉字无法与键盘键一一对应，使用一个或几个键来表示汉字，既为汉字“键盘输入编码” 汉字输入编码与汉字的内码是不同范畴的概念。使用不同的输入编码方法向计算机输入的同一个汉字，它们的内码是相同的。外码——文本信息的输入汉字输入编码方法的分类数字编码：使用一串数字来表示汉字的编码方法，例如电报码、区位码等。缺点：难以记忆，不易推广字音编码：一种基于汉语拼音的编码方法，简单易学，适合于非专业人员。缺点：同音字引起的重码多，需增加选择操作字形编码：将汉字的字形分解归类而给出的编码方法，重码少、输入速度较快，如五笔字形法和表形码等。缺点：编码规则不易掌握形音编码：吸取了字音编码和字形编码的优点，使编码规则适当简化、重码减少。缺点：不易掌握联机手写汉字识别（笔输入）以平常书写的习惯，把要输入的汉字写在一块叫书写板的设备上，书写板将笔尖的运动（包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等）按时间采样后发送到计算机中，由计算机软件自动进行识别，然后用该汉字（或符号）对应的代码进行保存。汉王笔正识率 95℅ ～ 90℅，速度 12字/秒中科院自动化所，华旗资讯科技发展有限公司（爱国者）汉语语音识别使用语音输入文本的系统也叫做“听写机”或“语音打字机”按照不同的应用及要求，语音识别的功能区别：孤立语音/连续语音识别小词汇量/大词汇量语音识别特定人/非特定人语音识别最高目标：非特定人大词汇量的连续语音识别技术预处理版面分析文字切分特征提取字符识别后处理扫描后的图像文本识别后的编码文本印刷体汉字识别（汉字OCR）印刷体汉字识别：将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术，也叫做汉字OCR（Optical Character Recognition）。印刷体文字识别的过程内码——字符的存储GB2312-80汉字编码用“机内码”存储西文字符机内码1个字节；中文字符机内码2个字节；汉字的编码（一）（1）GB2312-80汉字编码《信息交换用汉字编码字符集·基本集》(GB2312-80)组成：第一部分：字母、数字和各种符号，包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个（统称为GB2312图形符号）第二部分：一级常用汉字，共3755个，按汉语拼音排列第三部分：二级常用字，共3008个，按偏旁部首排列是针对“简体汉字”所有字符7445汉字6763汉字的编码（二）（1）GB2312-80汉字编码区位码：GB2312国标字符集构成一个二维平面，它分成94行、94列，行号称为区号，列号称为位号。每一个汉字或符号在码表中都有各自的位置，字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示，如：“大”字的区号20，位号83，区位码是20，83 用2个字节表示为01010011GB2312-80字符集位号： ………………12394 …… ……区号：1一级汉字（3755个）二级汉字（3008个）（扩充使用）字母、数字和各种符号91655568794汉字的编码（三）（1）GB2312-80汉字编码汉字的编码（四）（1）GB2312-80汉字编码国标交换码:问题：信息通信中，汉字的区位码与通信使用的控制码（00H～1FH）发生冲突。解决方案：为避免汉字区位码与通信控制码冲突，ISO2022规定，每个汉字区号和位号必须分别加上32（即20H）。（注意：是逻辑加，而非算术加）经过这样处理得到的代码称为汉字的“国标交换码”（简称交换码）。因此，“大”字的国际交换码是:区位码01010011）+32=交换码01110011）（1）GB2312-80汉字编码机内码：问题：文本中汉字与西文字符经常混用，汉字信息如不予以特别的标识，它与单字节的标准ASCII码就会混淆不清。解决方法：把一个汉字看作两个扩展ASCII码，使表示GB2312汉字的两个字节的最高位(b7)加“1”，（即27=128=80H）。这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”，又称内码。 “大”的国际码：01110011），内码是11110011（B4F3）汉字编码例汉字的区位码、国标码、机内码有