- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 数字媒体及应用 5.1 文本与文本处理 5.2 图像与图形及应用 5.3 数字声音及应用 5.4 数字视频及应用 5.1 文本与文本处理 文字处理是计算机应用的基础 计算机应用=使用计算机进行信息处理 传统的文字处理过程 计算机文字处理过程 文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体 文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示 文本在计算机中的处理过程是: 5.1.1. 文本的输入 文本的输入 文本的输入 文本输入是将文字输入到计算机中,建立文本文件(电子文档)的操作。 文字输入方法概述 人工输入。 方法:键盘输入、手写笔联机识别输入、语音识别输入; 特点:速度慢、成本高,不适合需处理大批量文字的应用。 文字自动识别输入。将纸介质上的文本通过识别技术自动转换为文字的编码。 方法:印刷体文字识别输入,手写体文字脱机识别输入; 特点:速度快,效率高,有误差。 汉字的键盘输入 汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点: 易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多) 汉字键盘输入方法的比较 文字符号输入计算机的方法 文字符号输入计算机的方法 文字符号输入计算机的方法 文字符号输入计算机的方法 文字符号输入计算机的方法 5.1.2 文本的表示与字符的编码 文本表示 文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。 字符、字符集及其码表 文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等 字符集:一组特定字符的集合 不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等 字符的编码: 字符集中每个字符都使用二进位(code) 表示,称为该字符的编码 不同的字符其编码各不相同 字符集中所有字符的编码的一览表,称为该字符集的码表 西文字符的编码——ASCII码 西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成 美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符 存在问题: 7位代码空间太小(解决方案:8位的扩充ASCII码) 不同国家和地区使用不同的字符集及其编码,互不兼容 东亚地区使用的大字符集无法编码 标准ASCII字符集及其码表 汉字如何编码? 汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素 汉字的特点 数量大;多个国家和地区使用;字形复杂,同音字多,异体字多 如何编码? 确定收入多少字、哪些字? 汉字在字符集中的排序方式 确定使用的代码结构和代码空间 常用的汉字编码字符集 国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030 台湾地区的标准汉字字符集CNS 11643 (BIG 5,俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87 GB2312汉字编码字符集 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 GB2312字符集由三个部分构成: GB2312汉字的编码 每一个GB2312汉字使用16位(2个字节)表示 每个字节的最高位均为“1” 在16位代码空间中的码位分布: GB2312汉字编码的不足之处 GB2312-80汉字字数太少,无法满足一些特殊应用的需要: 人名、地名; 古籍整理、古典文献研究。 没有繁体字(1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》) 编码效率不高: (6763+682)/65536 与ASCII码不兼容 区位码、国标码、机内码 几种汉字编码的对比 例: IE浏览网页时文字编码的选择 5.1.3 文本的文件类型 简单文本(纯文本 ) 简单文本(纯文本 ) 简单文本是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,文件后缀名是TXT。 简单文本的特点是:呈现为一种线
文档评论(0)