文本处理技术.ppt

2.1文本的相关概念 一、字符编码技术 二、字符的键盘输入 三、字符输出 四、文本文件格式及格式转换 一、字符编码技术 1.字符集 文本是由字符组成的集合,字符是各种文字和符号的总称,包括各国文字、标点符号、图形符号、数字以及一些不可见的控制符等。通常将这个集合称为字符集。 2.ASCII码 是由美国标准化委员会制定的。ASCII码用7位二进制位对字符进行编码,每个编码占据一个字节,字符集中包含32个控制字符和96个图形字符,图形字符包含数字、英文大小写字母、标点符号以及常用的符号和控制字符。 一、字符编码技术 3.国际统一编码标准(Unicode编码) Unicode编码(国际统一编码标准)规定,每个字符的Unicode编码占据2个字节,所以包含的字符范围比ASCII编码字符集扩大了256倍。 一、字符编码技术 4.汉字交换码(国标码) GB2312 80中共有7445个字符符号: 汉字符号6763个、一级汉字3755个(按汉语拼音字母顺序排列) 、二级汉字3008个(按部首笔划顺序排列)、非汉字符号682个 。 所有的国标码汉字及符号组成一个94*94的方阵。在此方阵中,每一行称为一个“区”,每一列称为一个“位”。这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。 一个汉字所在的区号和位号的组合就构成了该汉字的

文档评论(0)

1亿VIP精品文档

相关文档