用信息化手段进行语言文字的探究.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用信息化手段进行语言文字研究 王晓明 (教育部语言文字应用研究所 北京 100010) 随着中文数字化产品的不断问世,表明中文数字化技术日渐 成熟,用信息化手段研究语言文字的时代已经到来。 相对于信息技术的发展而言,语言文字工作者的研究手段则 显得相对落后,制约着其研究和发展的进程。究其主要原因在 于:资源的数字化远远跟不上时代的发展脉搏,满足不了学者所 需。目前为止,仍有相当数量的关于语言文字方面的史料、资源 等都是以纸张形式存在,即便有电子形式,也不成体系。学者要 进行学术研究、撰写论著,还只能凭借自己大脑中贮存的有限信 息为线索,到浩瀚的书海中搜寻,而且由于研究手段的陈旧,研究 成果往往不便重复利用,造成很大的人力、资源的浪费,制约着研 究的进程。据了解,多数学者都把80%,甚至更多的时间、经历用 于资料搜集,而且尚无把握查全;只有不到20%的时间、经历是真 正用于思考、研究。这不仅浪费了大量宝贵的时间和精力,也会 由于个人知识的空白而漏掉了某些有价值的资源,这种本末倒置 的现状必须改变。利用信息化手段进行研究工作,不仅可以提高 研究工作效率,而且对信息挖掘的深度和广度也是过去手工办法 无法比拟的。我们要充分地运用信息化手段,让更多的人成为学 者,让学者更专注于研究,这样才能多出成果、快出成果、出好成 果,使语言文字的研究工作迈上一个新台阶。 对语言文字的研究来说,信息化的前提就是要数字化。纵观 · · 555 近十年的数字化历程,笔者认为以下几点值得重视: 一什么是数字化 数字化不是纸张载体版本的翻版。扫描在很多情况下是必 要的,但扫描不是数字化,因为图像文字代替不了编码文字,不能 实现全文检索。真正的数字化是将纸张内容转为编码文字并使 之与多种有效的检索、处理工具相结合,做到足不出户、字字可 查、句句可检、图图可视,由此及彼、由表及里,获取所需资料。这 才是真正的数字化。 二什么样的编码标准适合中文数字化 由于历史的原因,导致了今天这个“万码奔腾”的局面。其中 码,一时间让人们不知所措。 笔者认为,在数字化之前,先弄清楚这些编码及其之间的相 互关系非常重要。故此花点篇幅作一简单介绍。 lSO 10646是国际编码标准,该标准旨在囊括世界上所有文 种。CJK特指其中的中、日、韩统一编码的汉字部分。目前CJK Extension 由三部分构成:CJK20902汉字、CJK A6582汉字和 ExtensionB 10646 cJK 47211汉字。也就是说,到目前为止IS0 已编码汉字达七万字之多。其中,前两部分在基本多文种平面 工业标准,它是由IT企业集团制定的,总体上,它的内容与ISo 10646完全相同,也可以简单地说是对ISo10646的俗称。 20902汉字部 GBl3000是等同采用IS010646的国家标准。cJK 分,既包容了GB2312,同时也包容了台湾的工业标准BIG5。 NT 5.o之前,俗称的繁体平台普遍采用此编码标准。GB2312. · · 556 GB2312编码汉字6763字,是在Windows95出现以前,国内信息 处理普遍采用的编码标准。GBK是在保持GB2312原貌的基础 上,将其字汇扩充至ISo10646中的CJK20902汉字,同时也就 包容了台湾的工业标准BIG5中的全部汉字,没有体系结构的变 Extension 但把CJK A的6582汉字扩充进去,而且还改变了

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档