- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字编码与地理信息系统建设
海军海洋测绘研究所1李宏利2李汉荣3
天津市友谊路40号300061
引言
地理信息系统(GIS)是近三十年来随着计算机技术的飞速发展而发展的--f-j学科,从其本质和
内在发展规律而言,它不仅是技术,而且是科学,是发展地球系统科学不可或缺的部分,现已广泛深入
到各行各业。地理信息系统之所以一枝独秀,正如陈述彭先生所言,主要是由于它本身具备着多样化的
社会功能。地理信息系统建设中的一个重要工作就是信息采集,信息主要源于各种比例尺的纸质或数字
的地图/海图和数字测量资料,数据更新手段主要是航天/航空遥感技术或其他自动化测量技术。地理信
息通常讲包括两大部分,一是描述物标位置的空间信息,二是描述物标性质的属性信息,其实还有一部
分是文字注记,由注记的文字内容和注记的位置、方式组成。无论是属性还是注记,它们都是由字符(字
母、数字、汉字等)构成。对字符进行规范化、标准化编码,是地理信息采集的基础。然而目前各行业
地理信息系统建设中对GB2312.80以外的汉字编码很少重视,造成生僻汉字的共享困难,数据交流存在
着隐患。本文针对上述问题,重点介绍汉字编码的沿革,详细分析地理信息系统建设中汉字编码不统一
的原因和危害,最后给出地理信息系统建设中汉字编码问题的解决办法。
1.汉字编码标准的沿革
中华文明,源远流长。汉字从商周时代的甲骨文演变到当代横平竖直的方块字,经历了数千年的漫
长进程,是使用最久、使用人口最多的文字。汉字不仅中国使用,而且早就影响到亚洲许多国家,如日
本、韩国、新加坡等。他们使用与中国相同的汉字字形,释义和发音有的有变化,有的则完全照搬中文。
汉字数量随着时间的推移而不断增加,西汉的《仓颉篇》仅有3300个汉字,东汉的《说文解字》
收录了9353个汉字,清朝的《康熙字典》突破47000个,现在的《汉语大字典》高达54678个,如果
把各地小范围流通使用的地名、物名、人名用字全部收集,总数大约有9万。尽管汉字数量如此庞大,
但常用汉字却是有限的。《毛泽东选集》一至四卷,总字数超过66万,也只用了2891个不同的字。郭
沫若先生曾说过:“汉字的数目大体上有五万多字的光景……,目前一般知识分子日常所使用的大概有
五、六千。”也就是说绝大多数汉字仅在古籍资料中才能见到。
汉字是汉语国家信息交流的媒介,如果说2225年前秦始皇统一中国,实行“书同文”的政策,促
进了古代中华文明的跨越式发展,那么信息化社会的今天,做到“字同码”,将对现代中华文明产生深
远影响。
计算机汉字编码标准是地理信息系统建设必须遵循的标准,近三十年来发展很快。标准分两部分,
一是汉字库标准,二是输入法标准,前者规范了汉字的存储,后者解决了汉字的输入。本文只讨论汉字
库标准。计算机能够输入多少汉字,这与软件和字库有关。依据不同的标准,字库中汉字的数量是不同
的。按时间顺序,主要标准有:
(1)GB
2312-80《信息交换用汉字编码字符集一基本集》
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计,在数以亿计的浩翰文
99.9%,
献资料中,统计出实际使用的汉字数为6335个,而其中有3000多个汉字的累计使用频度达NT
338
2312.80《信息交换用汉字编码字符集一基本集》,选入6763个汉字,一级字库中有3755
布了国家标准GB
个,是常用汉字,二级字库中有3008个,是次常用汉字:此外还选入了682个字符,包括数字、一般
符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。该标准以两字节的十迸制
区位码定义汉字,码长为四位,前两位为区码,后两位为位码。共分94个区,每区94个位。1-9区为
字符,16.87区为汉字,其余为用户自定义区。
WINDOWS
字库都是该标准字库。遇到“镕、嘹、彝……”等生僻汉字,既无法输入,又不能打印,更不能处理繁体
汉字。
(2) 《汉字内码扩展规范》
《汉字内码扩展规范》俗称GBK码,又称汉字大字符集,是继GB2312-80以后的一个汉字编码的
IntemMCode
重要标准,英文名称Chinese Specifica
您可能关注的文档
最近下载
- 2025光伏行业产能过剩内卷竞争现状及未来展望分析报告.pdf
- 中建设计常规做法及指标汇编(2022年,934页).pdf VIP
- 2025年国庆节假期安全教育PPT课件.pptx VIP
- 医疗器械唯一标识管理制度(UDI).docx VIP
- 《成人腰大池引流护理》(TCRHA 069-2024).pdf VIP
- 营销策划 -MINI品牌中国小红书内容种草策略分享-运营思路V2-小红书汽车.pdf
- 中小学生世界粮食日节约粮食主题班会PPT课件.pptx VIP
- 幼儿园保育技能基本功大赛试题.docx VIP
- 土木工程材料1.2 材料与水有关的性质XQ.ppt VIP
- 剑桥KET2025最新考试真题(标准真题版TEST3-阅读和写作部分-含答案及详细解析).pdf VIP
文档评论(0)