- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理和现代汉语研究的现状和设想 许嘉璐
中文信息处理与现代汉语研究的现状与设想 许嘉璐
现状和设想
--试论中文信息处理与现代汉语研究
许嘉璐
一信息处理的必然前景
中文信息处理,就是利用计算机对汉语信息(包括书面的和口头的)进行处理。既然是凭借计算机对信息进行处理,当然应该是自动化的。例如,成篇的文章或整本的书输入计算机,对其中所需要的信息进行统计;自动分类和搜索、过滤、摘要;外文与汉语的对译;字词典自动查询、辅助编辑;自动校对;书面和口语的互相转换;聋哑、盲人用的计算机;等等。至于词典、教科书、多媒体和语文教学等领域从中得益则不言而喻。
中文信息的自动化处理,意义之重大是无须多说的。首先是节省时间。但是这还在其次。更为重要的是,这是人们应付未来信息社会的必需手段。现在在世界范围内,信息最之大是以往任何时候无法比拟的,以至于对任何人来说都好像是一叶扁舟飘荡在无边的大海里,无法比较全面地掌握自己所需要的信息,当然就更淡不到对这些信息按照需要进一步处理。
信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至关重要。可以这样说,中文信息自动化处理每提高一步,给我国的科学技术(包括国家的信息化)、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。反之,如果我们落后了,不管是落后于国际水平还是落后于现实需要,后果也是严重的。
二中文信息处理技术发展现状
1.字处理与语言处理
到目前为止,中文信息处理基本上还停留在字处理阶段,也就是说计算机对汉语的认知是一个字一个字地进行。最明显的标志就是计算机键盘输入是一个字一个字地敲,一个字一个字的显示。即使应用软件准备了联想功能,但是其原理仍是把词(多音词)、短语当成字来处理的。如果我们说得宽宏一些,最多可以说现在是处在字和词处理之间阶段。
中文信息处理,只有进入到语言处理阶段,才能真正实现自动化。现在市面上有些信息产品似乎越过了字词处理阶段,给人以假象,使人误认为计算机对中文信息的处理已经自动化了。例如中文扫描仪,可以成篇地把文件输入到计算机里。其实,扫描仪是把整页纸当成一个图像输进去的;输入后,经过OCR的处理,图像转化了可以用键盘处理的文字文件,这时则仍是字处理。再如,现在有些语音输入产品(像IBM语音板),是基于在一定量的语料中对词汇进行统计,依据词出现的概率而研制的。其处理的基本单位也是字词。又如多种机器翻译产品,对汉语研究的基本思路和水平与语音输入基本上是一样的。
二十年前,我国计算机专家和汉语汉字专家为能在计算机上显示汉字,曾经付出了极大的心血,完成了历史性的突破。自那以后,中文信息处理技术虽然在有些方面有所进步,但是至今还没有跨上语言处理这个台阶。我们在字处理阶段停留的时间太久了。
在全世界科学技术高速发展的今天,中文信息处理自动化水平的提高,将决定着信息产业发展的前景,也意味着巨大的经济利益。因此,一些技术和经济发达的国家都投入了大量资金,在其本土或在中国建立研究基地,或以低廉的价格购买中国学者的研究成果,或径直购买其劳力,来进行中文信息处理的研究。中国作为汉语的故乡,能不能成为未来中文信息处理技术的发展的中坚?以汉语为母语的中国学者,能不能掌握中文信息处理的核心技术?这个问题早已尖锐地摆在我们面前。我们必须尽快地给以明确的回答。
由于机器翻译需要有关现代汉语的全部知识,而这些知识一旦为计算机所习得,对中文信息的处理就可以达到相当程度的自动化,因此现在无论是国内外中文信息产业还是研究信息处理的专家,都把汉/外机器翻译定为攻克的目标。
三目前我国中文信息处理技术发展的态势
我国的有关科研单位和专家,从来没有停止过攻克中文信息处理难关的努力,在国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机对自然语言进行理解问题,也就是以开发智能型的汉语分析系统为奋斗目标。
当前这类研究基本上都是在语料--主要是词--的统计概率的基础上进行的。许多专家已经感觉到,统计概率的路已经走到尽头,必须另辟蹊径,这蹊径就是语义,以词义为基础,与句法规则结合,以句为突破的单位。朝着这个目标努力,到目前为止,正在进行的众多研究项目,大体可以分为三种风格,或者说是三种思路、三个流派。
第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而研究词-短语(词组)-语段-句子。
概括地说,传统计算语言学的种种理论和方法,都以语料统计为基础。但是,只靠统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则。为此,我国学术界从西方计算语言学的众多理论和方法中吸收了许多营养,例如短语结构语法、扩充转移网络、从属关系语法和配价语法等。①
由许嘉璐主持的国家社会科学九五重大项目信息处理用现代汉语词汇研究的立项和进展或许可以说是当前这一领域
原创力文档


文档评论(0)