汉字编码与地理信息系统建设研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字编码与地理信息系统建设 海军海洋测绘研究所1李宏利2李汉荣3 天津市友谊路40号300061 引言 地理信息系统(GIS)是近三十年来随着计算机技术的飞速发展而发展的--f-j学科,从其本质和 内在发展规律而言,它不仅是技术,而且是科学,是发展地球系统科学不可或缺的部分,现已广泛深入 到各行各业。地理信息系统之所以一枝独秀,正如陈述彭先生所言,主要是由于它本身具备着多样化的 社会功能。地理信息系统建设中的一个重要工作就是信息采集,信息主要源于各种比例尺的纸质或数字 的地图/海图和数字测量资料,数据更新手段主要是航天/航空遥感技术或其他自动化测量技术。地理信 息通常讲包括两大部分,一是描述物标位置的空间信息,二是描述物标性质的属性信息,其实还有一部 分是文字注记,由注记的文字内容和注记的位置、方式组成。无论是属性还是注记,它们都是由字符(字 母、数字、汉字等)构成。对字符进行规范化、标准化编码,是地理信息采集的基础。然而目前各行业 地理信息系统建设中对GB2312.80以外的汉字编码很少重视,造成生僻汉字的共享困难,数据交流存在 着隐患。本文针对上述问题,重点介绍汉字编码的沿革,详细分析地理信息系统建设中汉字编码不统一 的原因和危害,最后给出地理信息系统建设中汉字编码问题的解决办法。 1.汉字编码标准的沿革 中华文明,源远流长。汉字从商周时代的甲骨文演变到当代横平竖直的方块字,经历了数千年的漫 长进程,是使用最久、使用人口最多的文字。汉字不仅中国使用,而且早就影响到亚洲许多国家,如日 本、韩国、新加坡等。他们使用与中国相同的汉字字形,释义和发音有的有变化,有的则完全照搬中文。 汉字数量随着时间的推移而不断增加,西汉的《仓颉篇》仅有3300个汉字,东汉的《说文解字》 收录了9353个汉字,清朝的《康熙字典》突破47000个,现在的《汉语大字典》高达54678个,如果 把各地小范围流通使用的地名、物名、人名用字全部收集,总数大约有9万。尽管汉字数量如此庞大, 但常用汉字却是有限的。《毛泽东选集》一至四卷,总字数超过66万,也只用了2891个不同的字。郭 沫若先生曾说过:“汉字的数目大体上有五万多字的光景……,目前一般知识分子日常所使用的大概有 五、六千。”也就是说绝大多数汉字仅在古籍资料中才能见到。 汉字是汉语国家信息交流的媒介,如果说2225年前秦始皇统一中国,实行“书同文”的政策,促 进了古代中华文明的跨越式发展,那么信息化社会的今天,做到“字同码”,将对现代中华文明产生深 远影响。 计算机汉字编码标准是地理信息系统建设必须遵循的标准,近三十年来发展很快。标准分两部分, 一是汉字库标准,二是输入法标准,前者规范了汉字的存储,后者解决了汉字的输入。本文只讨论汉字 库标准。计算机能够输入多少汉字,这与软件和字库有关。依据不同的标准,字库中汉字的数量是不同 的。按时间顺序,主要标准有: (1)GB 2312-80《信息交换用汉字编码字符集一基本集》 从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计,在数以亿计的浩翰文 99.9%, 献资料中,统计出实际使用的汉字数为6335个,而其中有3000多个汉字的累计使用频度达NT 338 2312.80《信息交换用汉字编码字符集一基本集》,选入6763个汉字,一级字库中有3755 布了国家标准GB 个,是常用汉字,二级字库中有3008个,是次常用汉字:此外还选入了682个字符,包括数字、一般 符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。该标准以两字节的十迸制 区位码定义汉字,码长为四位,前两位为区码,后两位为位码。共分94个区,每区94个位。1-9区为 字符,16.87区为汉字,其余为用户自定义区。 WINDOWS 字库都是该标准字库。遇到“镕、嘹、彝……”等生僻汉字,既无法输入,又不能打印,更不能处理繁体 汉字。 (2) 《汉字内码扩展规范》 《汉字内码扩展规范》俗称GBK码,又称汉字大字符集,是继GB2312-80以后的一个汉字编码的 IntemMCode 重要标准,英文名称Chinese Specifica

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档