中华字库:给汉字填写“身份”信息.docVIP

  • 1
  • 0
  • 约4.44千字
  • 约 5页
  • 2021-01-07 发布于四川
  • 举报

中华字库:给汉字填写“身份”信息.doc

精品文档,助力人生,欢迎关注小编! 中华字库:给汉字填写“身份”信息 打开文本图片集 在河北大学,一间300平方米的工作室内,多名专家学者以及学生,正在参与进行一项规模浩大的汉字整理与考释工作一一中华字库工程。这是一项国家重大文化建设工程,河北大学独立承担着明清图书用字的整理与考释工作。 什么是中华字库?我们已有《汉语大字典》《中华字海》这些大部头的字书,为什么还要对中华文字进行全面的搜集整理? 近日,记者走进河北大学中华字库工程工作室,试图揭开中华字库工程的神秘面纱,同时也走近这群人,听他们讲如何让一个个沉寂在古旧书籍上的汉字,在数字媒体中找到新的安身之所,拥有新的“身份”信息。 帮生僻字寻找“身份”信息 “这两个字念什么?你知道吗?”4月9日,窗外细雨蒙蒙,在河北大学中华字库工程工作室,负责人杨宝忠写下的两个字令记者一头雾水。 只见纸上的这两个字,左边都有一个“鼠”字,不过“鼠”字右边还各有一个“占”字和“靈”字,寫作“鼠占”“鼠靈”。 第一个字,虽在《康熙字典》《汉语大字典》《中华字海》这样的大型字书中有收录,但被作为双音节词用字处理,至于读音,书中却未给出。第二个字大型字书都没有收录。 与这些令普通人直皱眉头,甚至大型字书中都未给出答案或没有收录的疑难字打交道,对它们追根溯源,辨析渊源流变,是河北大学文学院汉语言文字学教授杨宝忠多年来的主要工作。 人们的印象中,汉语言文字学这门学科,可能更多的是在“故纸堆”中埋头考究。而现在,杨宝忠正带领30多位老师和学生,参与一项解决中国目前在信息化、数字化中所碰到的瓶颈问题的重大工程。 走进工作室,只见大家伏案于一排排电脑桌前,全神贯注地盯着屏幕,电脑屏幕上是电子扫描版的竖排文字古文献,不少还纸张斑驳,字迹模糊。工作室忙碌而安静,只听见计算机的嗡嗡声。 “拟认同字、康熙部首、康熙附形部首等属性,以及读音、释义、字际关系等,这些都是一个字的‘身份信息’,我们的工作就是为这些从明清图书上找出来的生僻字填写一张完整的‘身份证’。”工作室成员、河北大学文学院徐世权博士,一边向记者展示中华字库工作平台界面,一边向记者解释他们的主要工作内容。 “我国现有的计算机字符集仅有7万多个,已无法满足时代需求。因此,国家启动了中华字库工程,将利用先进的信息技术手段,收集和汇总历代文献资源中出现过的汉字和少数民族文字,辨析源流衍变,确定每个字形的历史地位,建立汉字及少数民族文字的编码和主要字体字符库,”中华字库工程第15包项目管理办公室主任杨清臣介绍。 中华字库工程于20XX年启动,完成之后的中华字库预计可编码字符数在50万左右。工程共有28个工作包,河北大学以独立承担的方式,获得第15包明清图书用字搜集与整理之三·文字整理与考释的分包任务,对约100万字形(楷体汉字)的疑难字进行辨识、整理和考释。 而他们考释的生僻字“身份信息”,最终将被收进“中华字库”,然后提交给国际标准化组织,在电脑区位中给每个字编码,厂商再据此做出宋体、黑体、隶书等字体,最终进入计算机。 “我们每天的工作就是研究生僻字。很多人并不觉得生僻字对我们的现实生活有何影响,但有的人就因为生僻字,连一张信息准确的身份证都无法得到。”在行唐县独羊岗乡某村进行的一次实地考察,令杨清臣深有感触。 该村的历史可以追溯到南宋时期,距今已有近千年历史。但苦于计算机打不出这个村名,当地村民的第一代身份证上的村名信息只能靠手工填写,而现在使用的第二代身份证,只能用“差取”二字来代表。 最难的是疑难字考释 从某种意义上说,在信息化、数字化时代大潮之下,不论是常用字还是生僻字,只有被纳入字库当中,才算找到了“家”。 在中华字库工程的计算机操作平台上,每个从上一环节递交过来的文字,都设有一个专属的号码,就像一个人的身份证号。工作室成员要做的,就是把这些汉字有名有姓地带回“家”,以便它们能信息完整地“居住”在字库这个虚构的网格式大厦里。 然而,这条寻“家”之路并不容易。 按照工作窒的流程安排,一审主要是硕、博研究生对填写的内容进行互审,二审则是由教师对一审内容进行检查,二审解决不了的问题,则要进一步提交给杨宝忠、梁春胜二人“坐镇”的三级审核。 一般冲破重重关卡来到杨宝忠和梁春胜面前的,都是几轮考释仍啃不下来的硬骨头一一疑难字。 杨宝忠解释,疑难字是个相对概念,指一般人不认识或认错的字,在普通人看来,它们的结构都复杂得令人咂舌。在大型字书里,有些字音义不全,标为“音未详”“义未详”或“音义未详”。有些字虽然音义俱全,很可能也存在注音、释义、字际关系整理等诸多错误。 因

文档评论(0)

1亿VIP精品文档

相关文档