书同文%2c文同码与无字库.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
书同文、文同码与无字库 张时钊 一、书,lal文 春秋战国五百多年,诸侯割据,各自为政,造成文字相异,迫 使秦始皇要搞书同文。此后汉字字形几经变化,好像再没有提出这 种任务。两千年后的今天,不到五十年工夫,大陆成功推广了简化 字,海峡两岸文字就不一样了,又需要搞第二次书同文。文字本身 虽没有阶级性,但也会受政治政策的影响。不过政策不符合文字发 展的本性,恐怕也难起作用,如武则天造的字和第二简化字表,就 都以失败告终。第一批简化字既已被大陆和世界最大多数华人所接 受,决无倒退回去的道理。至于由于简化和归并造成的某些问题, 在使用中完全可以理智地避免。实际上任何文字,包括繁体字,都 可以找到这种会造成歧义的特例。同样不能把繁体字定为非法。我 认为可以搞三五千字的常用字表,但不应该搞什么规范字表,限定 汉字数。规范文字(包括规范字音、字义)通常应该由字典去承担。 写文章总要求能让读者看得懂,采用读者熟识的字,不会用大量的 生僻字,除非不想给别人看。为做到这点,作者可能翻字典而不会 去查字表。我想现在最影响中文纯洁性的网络词语中的字母数字, 不会纳入规范字表吧,但不能禁止许多人用它。如果不计偏旁替代 产生的简化字,简繁不同的字就不多了,大陆青年即使没学过繁体 字,现在接触多了也认得了,第一次常常是猜得的。因为大多数简 体字来自草书或手写俗字,港澳台也是熟识的。简繁转换有时不一 134 定是必要的,尤其对不对称的简繁字,不同时期、不同地区、不同 的人用不相同的字,可能有不同含义,转换之后会丢掉一些信息。 总之,我主张兼容并包,两岸交流多了,自然会书同文了。 限定汉字数的做法更要不得。现在的电脑只能使用字库里有的 汉字,还要依靠种种输入法,已经扼杀了汉字的发展,逼出奇形怪 状的网络词语。我们应该让电脑也能自由使用任何字形,由实践来 选择、形成新时代的字集。比起上百万的英文字来,九、十万汉字 并不算多。虽然绝大部分是死字,但不能抹杀它的存在,说不定某 时某刻要用到它,甚至复活或获得新含义。我们搞文字的,都应该 首先致力于研究汉字的科学排序法,通过自动组字软件,把电脑的 输入码、内码统一为同一个,编出易用易查的字典,那么什么问题 都解决了。 二、文同码 一、火同哟 我说的不是输入码,而是汉字内码。二十年前,两岸文字不只 是简繁不同,而是更严重的内码不同,软件不配套时,会显示一堆 乱码,要经过内码转换才能阅读。现在中日韩所有汉字都统一在统 一码Unicode中,没有乱码问题了,而且可以简繁转换。但是问题 并没有完全解决。按Unicode的计划,要把世界上所有文字都纳进 来,任何一个不同的字形,都有一个唯一的内码,完整的内码要4 个字节,可容纳20亿个码位。因为世界上到底有多少种文字,复杂 的如汉字到底有多少个字,都不能一次确定,妥善安排,只能由各 个国家或地区分次申请注册。汉字已申请到7-8万个码位,但不是 135 连成一片,而是割裂成许多段。字太多了,容易出错,有网友发现 所谓的“电脑错字”,也有重复的。更难的是输入法,如何从近十万 个汉字中选取您需要的。最后,还是有缺字,尤其缺一些人名用字, 使不少人办不了第二代身份证。有一本电子书“国学备览”,就要用 一千个图片,用来显示字库里没有的汉字。这说明用扩大字库的方 法是不能解决问题的。于是TomBishop和RichardCook提出汉字 都可以用比它简单的汉字或部件,最后都可以用笔画组出。 比较一下中文和英文,英文字(词)虽然上百万,电脑里也永 远不会缺字。原因在于:他们不是对字而是对字母编码的。字是开 放的,可以任意造新字,且有自然的字典序。我们也改为对笔画编 码,行吗?英文字母是线性排列的,汉字笔画是平面排列的,有可 能笔画序列相同而汉字不同,怎么办?这个问题以及笔顺等等,都 可以加一些约定来解决,难解决的还是汉字笔画数(平均10一ii)比 英文字母数(平均5-6)大一倍,码太长,也不直观。如果改为对部 件编码,部件又太多。能不能将部件归并成100类,每类定一个高 位为1的字节作为内码,只有该类内出现频率最高的部件直接用该 码,其他部件则另加

文档评论(0)

baihualong001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档