文本处理技术教材.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.1文本的相关概念 一、字符编码技术 二、字符的键盘输入 三、字符输出 四、文本文件格式及格式转换 一、字符编码技术 1.字符集 文本是由字符组成的集合,字符是各种文字和符号的总称,包括各国文字、标点符号、图形符号、数字以及一些不可见的控制符等。通常将这个集合称为字符集。 2.ASCII码 是由美国标准化委员会制定的。ASCII码用7位二进制位对字符进行编码,每个编码占据一个字节,字符集中包含32个控制字符和96个图形字符,图形字符包含数字、英文大小写字母、标点符号以及常用的符号和控制字符。 一、字符编码技术 3.国际统一编码标准(Unicode编码) Unicode编码(国际统一编码标准)规定,每个字符的Unicode编码占据2个字节,所以包含的字符范围比ASCII编码字符集扩大了256倍。 一、字符编码技术 4.汉字交换码(国标码) GB2312 80中共有7445个字符符号: 汉字符号6763个、一级汉字3755个(按汉语拼音字母顺序排列) 、二级汉字3008个(按部首笔划顺序排列)、非汉字符号682个 。 所有的国标码汉字及符号组成一个94*94的方阵。在此方阵中,每一行称为一个“区”,每一列称为一个“位”。这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。 一个汉字所在的区号和位号的组合就构成了该汉字的“区位码”。其中,高两位为区号,低两位为位号。这样区位码可以唯一地确定某一汉字或字符;反之,任何一个汉字或符号都对应一个唯一的区位码,没有重码。 一、字符编码技术 5.汉字机内码(内码) 汉字机内码(内码)是汉字在计算机内部表示和存储和处理使用的编码。 英文字符的的机内码是最高为为0的8位ASCII码。为了不与7位ASCII码发生冲突,把国标码每个字节的最高位由0改为1,其余位不变的编码作为汉字字符的机内码。 2.1文本的相关概念 一、字符编码技术 二、字符的键盘输入 三、字符输出 四、文本文件格式及格式转换 二、字符的键盘输入 1.西文输入 由于西文字符数量较少,其每个字符均可在键盘上找到。在英文输入时,输入什么字符便按什么键,键盘会产生该字符对应的机内码。所以西文字符的输入编码是字符本身。 2.汉字的输入码(外码) 由于汉字数量太多,无法给每个汉字分配一个键,可能要按几个键才能输入一个汉字,因此由输入键序列构成了汉字的输入码。 汉字输入方案 (1) 音码:如全拼、双拼、微软拼音等 (2) 形码:如五笔字型、郑码、表形码等 (3) 音形码:如智能ABC、自然码等 (4) 数字码:如区位码、电报码等 2.1文本的相关概念 一、字符编码技术 二、字符的键盘输入 三、字符输出 四、文本文件格式及格式转换 三、字符输出 字符在计算机中以机内码形式存储和处理,这种二进制代码是不容易被人直接识别和阅读的,因此在输出时,必须还原成可以被人识别的形态,即以字符的笔划形状来显示。 三、字符输出 1.字库 汉字在存储和处理的过程中,只需要用机内码 在输出时,需要用到字形的信息, 将每个汉字机内码对应的点阵信息保存为一个表,就成为字库。字库中描述字形信息的编码,称为汉字字形码(输出码)。 当计算机需要显示某个字符时,根据字符内码与点阵码的对应,找到点阵信息进行显示。 同一字符,因为其显示的字体可以有很多,因此,字库也可以有多个。 三、字符输出 2.点阵字库 以点阵表示的字形信息存储时,每个英文字形要使用16个字节存储,汉字字形则要使用32个字节(16 * 16/8= 32)存储。可以看出,一个机内码为两字节的汉字,在显示为16*16大小时,对应着一个32字节的点阵。 三、字符输出 以点阵来描述字形的字库,称为点阵字库。点阵字库中各个字符顺序存放,每个字符有一个地址码,这个地址码与字符的机内码是对应的。 点阵字库在早期使用较多,输出字符时处理也较简单,只要给定字符的地址码,字形点阵数据顺序读出即可。 三、字符输出 3.True Type字库 点阵字库在放大时,会在边缘出现锯齿现象。 可用数字函数描述字体轮廓外形的内容丰富的指令集合来表示字符。 这些指令中包括字型构造、颜色填充、数字描述函数、流程条件控制、栅格处理器控制,附加提示信息控制等指令。 使用这种字库的显示实际上是由一系列指令描出字形的轮廓,然后用一定的方式填充,字形的输出是由指令绘制的一系列相接的曲线或直线拼成,不管字形被放大到多大,重新绘制的曲线能够保持字符边缘的光滑。 三、字符输出 4.字库的使用 字库以文件形式保存在操作系统中(如windows XP操作系统,保存在“C:\WINDOWS\Fonts”文件夹中) 三、字符输出 4.字库的使用 三、字符输出 5、字库使用常见问题 问题:在一台计算上定义的文本,

文档评论(0)

xiaofei2001129 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档