- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
下载
第20章 ASCII码和字符映射
数字计算机存储器按位存储,所以,需要在计算机上处理的信息必须按位的形式存储。
我们已经知道如何用位来表示数和机器码,下一个问题是如何用它来表示文本。毕境世界上
大量堆积的信息是文本形式的,就像装满图书馆的书、杂志和报纸。尽管我们最终要用计算
机来存放声音、图像和电影信息,但我们还是以较容易的文本存放开始。
为了以数字形式表示文本,必须开发一些系统使得系统里的每一个字母有唯一的编码。
文本中也存在数字和标点符号,所以也必须有它们的编码。简单地说,所有的字母、数字和
符号都要编码,这样的系统叫作字符编码集,每一个编码叫作字符编码。
第一个问题是:这些编码需要多少位?这并不是容易回答的问题。
当考虑用位表示文本的时候,需要切合实际。我们习惯于看到书中、报刊、杂志上精美
的文本格式,段落按照相同的间隔整齐地分成一行一行,但这些并不是文本的本质。当我们
在杂志上看到一个小故事,几年后在一本书中又看到同样故事的时候,我们不会因为书中文
本间距的不同而认为是不同的故事。
换句话说,不要以这种印刷成行列的二维格式来看待文本,应该把文本看成是一维的字
母、数字和标点符号流,此外,也许还有额外的编码用来表示一段的结束和另一段的开始。
再来看看,如果在杂志上看到一个故事,后来又在书中看到同样的故事但字样有些不同,
这是一个大问题吗?如果杂志上的写法为
Call me Ishmael
而书中的写法为
Call me Ishmael
这些差别难道是我们真正关心的吗?恐怕不是。印刷样式是微妙地影响了文本的观感,但故
事本身并没有因为样式的改变而不同。样式可以经常修改,但不会带来什么影响。
接下来另外一个简化问题的方法是:用平版的文本。没有斜体,没有粗体,没有下划线,
˙˙
˜ o
没有颜色,没有空心体,没有上下标,没有音调标记,没有 Å 、 é 、 n 、 等符号,只有
9 9 %英语文本里纯粹的拉丁字母。
在对摩尔斯电码和布莱叶盲文的早期研究中,可以看到如何将字母字符表示成二进制的形
式。尽管这些系统在特定的场合应用地很好,但用到计算机里都有一些问题。例如:摩尔斯电
码是宽度可变的编码:对常用的字符采用短编码,对不常用的字符采用长编码。这样的编码系
统适用于电报,但对计算机来说却不合适。另外,摩尔斯电码对字母的大小写没有区分。
布莱叶盲文是宽度固定的编码,很适合计算机。每一个字符由 6位表示,也可以区分大小
写,尽管它是用特殊的e s c a p e码来区分的,该代码表明下一个字符为大写。这也就是说,每个
首部字符需要两个代码而不是一个。数字用 s h i f t码表示,在这个特定的代码后紧跟的代码被
看作表示数字,直到又一个 s h i f t码将其转换到字符状态。
我们的目标是开发一个字符编码集,使得像如下的句子
I have 27 sisters。
208 编码的奥秘
下载
可以用一串代码来表示,每一个代码具有一定的位数。一些代码用来表示字母,一些表示标
点符号,一些表示数字。甚至有代码来表示字间的空格。上面的句子中有 1 8个字符(包括字
间空格),这样一个句子的连续字符代码常称作文本串。
在文本串里,用代码来表示数字 (如2 7 )似乎很奇怪,因为前面许多章里已讲过用位来表示
数字。我们可能会用简单的二进制数 1 0和111作为该句中2和7 的代码,但用在这里是不合适的。
该句中,字符2和7可像英文作品中出现的任何一种字符一样来看待 ,它们可能具有与它们的实
际值毫不相干的字符代码。
也许最经济的字符编码是 5位编码,它首先用于 1 8 7 4年的电报机,是由法国电报服务公司
职员Emile Baudo
文档评论(0)