- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[应力应变分析[应力应变分析[应力应变分析
第5章 数字媒体及应用 什么是数字媒体? “媒体”指的是信息的各种表示形式(如数值、文字、图像、声音、视频等) 数字媒体就是数值、文字、声音、图像等的二进制数字表示 2 种不同类型的数字媒体 自然媒体(使用数字化方法从现实世界获取的媒体) 为什么要学习数字媒体? 数字媒体是各种计算机应用的处理对象,也是网络的传输对象。不了解“对象”,就不能透彻地理解计算机和网络的工作原理。 进一步理解计算机的工作原理 更好地理解常用工具软件的操作原理 扩大知识面,了解更多的计算机应用 为各个专业和学科进一步学习、使用计算机打下必要的基础 5.1 文本与文本处理 什么是文本? 文本(text):文字信息在计算机中的表示形式 是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。 文本的处理 文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。 文本处理 组成文本的基本元素是字符(character) ,字符与数值信息一样,在计算机中也采用二进位编码表示。 5.1.1 字符的编码 字符编码的属性 字汇:编码字符集中有哪些字符 编码规则:如何确定每个字符的代码 码长: 字符代码的长度。它决定了代码空间的大小 定长码:7位,8位,双字节,4字节 可变长码:单-双-4字节码 复习:西文字符的编码——ASCII码 西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成 美国标准信息交换码(ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符 特殊字符的ASCII码 空格(32)20H 0(48)30H A(65)41H a(97)61H 回车(13) 0DH 2、汉字编码字符集 汉字的特点: 数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字) 多个国家和地区使用:港台地区,日、韩、朝、新、马等 字形复杂,同音字多,异体字多。 常用的汉字编码字符集 国家标准GB2312-1980 汉字扩充规范 GBK-1995 国家标准GB18030-2000/2005 台湾地区的标准汉字字符集CNS 11643 (BIG 5,俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87 UCS/Unicode多文种大字符集 (1)GB2312汉字编码字符集 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 GB2312字符集由三个部分构成: GB2312汉字的编码 每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1” (2)GBK汉字内码扩充规范 GB2312的不足: 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容 GBK汉字内码扩充规范(1995): 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”: (3)Big5(大五码) 台湾、香港地区使用。 注意:GB2312(GBK)与Big5并不兼容。 (4)UCS/Unicode多文种大字符集 背景:为了实现全球数以千计的不同语言文字的统一编码 方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112 个) ,称为UCS。 UCS:ISO/IEC 10646 Universal Multiple-Octet Coded Character Set,通用多8位编码字符集 Unicode:统一码或联合码,微软、IBM等联合制定、与UCS完全等同的工业标准 UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作 UCS-4) UCS/Unicode的编码方案 先实现部分字符的编码(共107,361个字符) 尽量与已有编码标准兼容 其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字) 允许有若干不同的编码方案, 例如: UCS/Unicode的优缺点 优点:编码空间极大,能容纳足够多的各种字符集(13亿字符) 缺点:4字节的字符编码使存储空间浪费严重 克服:在UCS/Unicode编码空间中,把第1和第2字节均为“0”的一个子
文档评论(0)