- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 5 章 数字媒体及应用
一. 西文字符的编码——ASCII
(一) ASCII=美国标准信息交换码 (二) 标准ASCII:
采用 7 个二进位进行编码
共有 128 个字符,包含 96 个可打印字符(常用字母、数字、标点符号等)和32 个控制字符
(三) 基本ASCII 与扩展 ASCII 的比较:
基本
基本 ASCII
扩展 ASCII
相同
不同点
用一个字节(8b)存放
高位为“0”
高位为“1”
(四) 常见字符的ASCII 码对照表:
字符
字符
十进制 大小顺序
13
32
48~57
65~90
97~122
回车符(控制字符)
空格(控制字符) 数字 0~9
大写字母 A~Z
小写字母 a~z
二. 汉字的编码
(一) GB2312
1981 年我国颁布了第一个汉字编码国家标准GB2312—80(6763 个汉字)
组成:
第一部分:字母、数字和各种符号
第二部分:一级常用汉字(共 3755 个),按汉语拼音排列
第三部分:二级常用汉字(共 3008 个),按偏旁部首排列
具体实现:
区位码:GB2312 国标字符集构成一个二维平面,它分成94 行(行号称为区号)、94 列(列号称为位号)。每个汉字的区号和位号分别用1 个字节来表示。
国标交换码:每个汉字的区号和位号分别加上32D(0010 0000B)。
?
机内码(内码):把一个汉字看作两个扩展 ASCII 码,在国标交换码的基础上使两个字节的最高位都等于“1”,即分别加上 128D(1000 0000B)
区位码、国标码、机内码的关系
特点:早、小、双、简
(二) GBK
1. 1995 年发布
共有 21003 个汉字和 883 个图形符号
支持繁体字,包含了中、日、韩认同的全部CJK 汉字;
双字节编码
5. 向下兼容GB2312-80 (三) GB18030
1. 2000 年发布
产生原因:保护我国已有的大量信息资源,既能与 UCS/Unicode 编码标准接轨,又能向下兼容 GB2312
和 GBK 汉字编码标准
备注:UCS/Unicode:Windows、UNIX、Linux 操作系统和许多最新的软件标准都在使用UCS/Unicode。
共有 27000 多个汉字(收录字符最多)
不等长编码
编码方式双字节双字节1B、2 B、3 B1B、2B、4B兼容性向下兼容 GB2312不兼容向下兼容 GB2312 和 GBK
编码方式
双字节
双字节
1B、2 B、3 B
1B、2B、4B
兼容性
向下兼容 GB2312
不兼容
向下兼容 GB2312 和 GBK
与 UCS/Unicode 接轨
GB2312
GBK
UCS/Unicode
GB18030
出现时间
1981 年
1995 年
2000 年
意义
最早
首次支持繁体
能实现全球所有不同语言文字统一编
支持汉字数目最多
码的国际编码标准
汉字数目
6763 个
21003 个
2 万多汉字
27484 个
支持繁体
否
是
是
包含 CJK
否
是
是
是
不等长编码
不等长编码
三. 文本的准备(输入)
文本信息输入人工输入
自动识别输入键盘输入
联机手写输入语音输入
印刷体识别手写体识别
(一) 汉字的键盘输入编码(即汉字的外部码)
要求:易学、易记、效率高、重码少、容量大
分类:数字编码、字音编码(字音编码)、字形编码(五笔字形)、形音编码
注意:用不同的输入编码方法输入同一个汉字,其内码是一样的。
(二) 联机手写汉字识别——笔输入设备
(三) 印刷体汉字识别输入——扫描仪、OCR 四. 文本的分类
(一) 按是否具有编辑排版格式分:
简单文本
又称为纯文本、ASCII 文本,其文件的后缀为“ .txt”(文本文件)
定义:由一连串用于表达正文内容的字符的编码组成,几乎不包含任何其他的格式信息和结构信息
特点:没有字体、字号的变化,不能插入图片、表格、超链接
丰富格式文本
在简单文本中增加格式控制和结构说明信息
标记:用来说明文本的版面结构、内容组织、文字的外貌属性等
组成:正文 + 标记
标记语言:
普通:RTF
网页:HTML(超文本标记语言)、XML(可扩展的标记语言)
不同的文字处理软件使用的标记语言不同,Word 无法打开“*.pdf”文件
(二) 按文本内容的组织方式分:
线性文本
超文本
采用网状结构组织信息
可以通过导航、跳转、回溯等操作,实现对文本内容更为方便的访问
典型代表:Windows 中的“帮助”文件(“*.hlp”文件)
(三) 按文本内容是否变化和如何变化分:
静态文本:每次访问相同结果
动态文本:文档内容变化(天气查询)
主动文本:持续更新显示文档内容(股票行情查询) 五. 文本的编辑、排版与处理
(一) 文本的编辑、排版
您可能关注的文档
最近下载
- 人教部编版八年级语文下册必背古诗文(原文+译文).pdf VIP
- 2025年全国高处作业证理论考试题库(含答案).docx
- 2025至2030PVC稳定剂行业细分市场及应用领域与趋势展望研究报告.docx VIP
- 江苏2024年高中学业水平合格性考试数学试卷真题(含答案详解).docx VIP
- 金蝶云星空 V9.0_产品培训_基础_基础管理.pptx VIP
- 苏科版-八年级生物上册-知识点总结.pdf VIP
- 中职高教版(2023)语文职业模块-第六单元微写作一-描述事物【课件】.pptx VIP
- 上海开放大学工作人员公开招聘备考题库(2026年)附答案详解.docx VIP
- 壁画施工安装方案.docx VIP
- 《控制计划培训》.ppt VIP
原创力文档


文档评论(0)