- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字编码字集 (1) GB2312-80汉字编码字符集。 《信息交换用汉字编码字符集·基本集》(GB2312-80) 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)。 第二部分:一级常用汉字,共3755个,按汉语拼音排列。 第三部分:二级常用字,共3008个,按偏旁部首排列。 ① 区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示。 ② 国标交换码: 将GB2312字符集中每个汉字的区号和位号必须分别加上32(即二进制0010 0000,十六进制20H),就可以得到该汉字的“国标交换码”(简称交换码)。 ③ 机内码: 把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为1的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。 国标码=区位码+2020H, 机内码=区位码+A0A0H 2)GBK汉字编码字符集。 1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。 GBK的编码是用2字节编码表示,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”。 (3)UCS/Unicode与GB18030汉字编码标准。 ① 通用编码字符集UCS/Unicode。 UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作UCS-4)。 其优点是编码空间极大,能容纳足够多的各种字符集(13亿字符);缺点是4字节的字符编码使存储空间浪费严重。 ② GB18030-2000编码。 GB18030-2000汉字编码标准是为了既兼容GB2312和GBK,又尽快向UCS/Unicode编码标准过渡,而在2000年颁布的汉字编码国家标准。该标准在GB-2312和GBK的基础上进行扩充,增加了4字节编码。 例 :(单选)在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为( )。 A.46H B.66H C.67H D.78H 例 :(判断)西文字符在计算机中通常采用ASCII码表示,每个字节存放1个字符。( ) 例 :(判断)采用GB2312、GBK和GB18030三种不同的汉字编码标准时,一些常用的汉字如“中”、“国”等,它们在计算机中的表示(内码)都是相同的。( ) (单选)有关我国汉字编码的叙述中,错误的是 A.GB2312国标字符集所包含的汉字许多情况下已不够使用 B.GBK字符集既包括简体汉字,也包括繁体汉字 C.GB18030编码标准中所包含的汉字数目超过2万字 D.不论采用上述哪一种汉字编码标准,汉字在计算机中均采用双字节表示 文本文件的类型 文本类型 简单文本 丰富格式文本 超文本 简单文本文件(纯文本) 简单文本是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,文件后缀名是TXT。 2、丰富格式文本文件 文件内容有字符(汉字)的编码、数字图像、数字声音、数字视频信息、标记信息(格式信息、结构信息、链接信息等)。例如,RTF文件、DOC文件、PDF文件、HTML文件。 3、超文本文件 超文本也称为非线性文本,文本的组织结构是网状结构,即包含链接信息的丰富格式文本。阅读时除顺序阅读方式之外,还可以通过跳转、导航、回溯等操作,实现对文本内容更为方便的访问。例如,Windows中的“帮助”文件或者使用浏览器从Web服务器上下载的网页(html或htm文件)。 超链是有向的,起点位置称为链源,目的地(目标)称为链宿。链源可以是节点中的一个标题、句子、关键词、字、一幅图像、一个图标等。链宿可以是节点,也可以是系统中的一个文件(包括文件的标签)或者程序。 网页中的超文本文件还分静态文档、动态文档、主动文档。 例 :(单选)关于文本的叙述中,错误的是。 A. 不同文字处理软件制作的丰富格式文本通常互不兼容 B. 纯文本的文件扩展名为“.txt” C.“.doc”文件中不只包含西文字符和汉字,并且含有许多字符属性和格式标记 D. 超文本既可以是丰富格式文本,也可以是纯文本 例
您可能关注的文档
最近下载
- 一种新型功交换式能量回收装置.pdf VIP
- 生猪屠宰兽医卫生检疫人员考试题库答案.pdf VIP
- 生猪屠宰兽医卫生检疫人员考试题及答案.doc VIP
- 《仲景食品公司应收账款管理现状、问题及对策》6000字.doc VIP
- 2024《仲景食品公司应收账款精益化管理研究》9100字.docx VIP
- 2024《调味配料企业应收账款管理问题及对策—以仲景食品公司为例8600字》.docx VIP
- 2024《企业应收账款管理的现状分析—以仲景食品公司为例》8400字.doc VIP
- 生猪屠宰兽医卫生检验人员理论考试题库及答案.pdf VIP
- 仲景食品有限公司应收账款风险分析与防范.docx VIP
- 仲景食品有限公司应收账款风险分析与防范.docx VIP
文档评论(0)