- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第5章数字媒体及应用5.1文本与文本处理5.2图像与图形5.3数字声音及应用5.4数字视频及应用
5.1文本与文本处理5.1.1字符的编码5.1.2文本准备5.1.4文本编辑、排版与处理5.1.3文本的分类5.1.5文本的展现
文字处理是计算机应用的基础计算机应用=使用计算机进行信息处理其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。文字数值语言音乐图像···信息的形态有多种
传统的文字处理过程写作编辑排版印刷发行写作
计算机文字处理过程文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列“字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:(文本编辑器)文本编辑与排版格式化的电子文本(2)文本展现(文本阅读器)(5)文本处理(文本处理)(3)文本准备电子文本(1)(文字与图表的输入)文本存储与传输(4)(存档/通信软件)
5.1.1.字符在计算机中的表示
文字的基本元素是字母和符号,统称为“字符”(character),它包括:字母、数字、标点、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符的二进位表示,称为该字符的编码或代码(code)不同的字符其编码各不相同字符、字符集及其编码表
复习:西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题:字符集太小(只有128个字符)不同国家和地区使用不同的字符集及其编码,互不兼容0XXXXXXX
汉字如何编码?汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马······)汉字的特点数量大;字形复杂,同音字多,异体字多如何编码?确定收入多少字、哪些字?在字符集中如何排列?使用多少个二进位进行编码?
国家标准GB2312-19801汉字扩充规范GBK(已被GB18030取代)2国家标准GB18030-20053港澳台使用的汉字编码字符集CNS11643(BIG5,俗称“大五码”)4UCS/Unicode多文种大字符集5Unicode的UTF-86Unicode的UTF-167常用的汉字编码字符集
GB2312汉字编码字符集一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号 ………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字和符号都有一个确定位置
GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”例如:“南”字的代码11001111(用十六进制表示为C4CF)11第1字节第2字节XXXXXXXXXXXXXX
GBK汉字内码扩充规范GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1X第1字节第2字节XXXXXXXXXXXXXX
UCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112个),称为
您可能关注的文档
- 快乐地工作-中小学教师压力管理.pptx
- 小学安全主题班会.pptx
- 循环休克时的血液动力学.pptx
- 小学数学教材教法 (2).pptx
- 多元行销中话术流程.pptx
- 数学史与科学史-07新数学的诞生.pptx
- 大气活动中心与季风环流.pptx
- 常用拍子与指挥.pptx
- 培训导师的职责与任务.pptx
- XXX土地利用变化及其生态环境效应研究.docx
- 中考语文复习专题二整本书阅读课件.ppt
- 中考语文复习积累与运用课件.ppt
- 2025年初中学业水平考试模拟试题(二)课件.ppt
- 四川省2015届理科综合试题48套第12套.pdf
- 【课件】战争与和平—美术作品反映战争+课件-2024-2025学年高中美术湘美版(2019)美术鉴赏.pptx
- 【课件】青春牢筑国家安全防线 课件 2024-2025学年高中树立总体国家安全观主题班会.pptx
- 【课件】原始人的创造+课件高中美术湘美版(2019)美术鉴赏.pptx
- 上海证券-美容护理行业周报:流量加快去中心化,强运营头部品牌影响较小 -2024-.pdf
- T_CSEIA 1005—2023_能源工业互联网平台数据治理要求.pdf
- T_CDSA 504.16-2023_急流救援技术培训与考核要求.pdf
文档评论(0)