- 28
- 0
- 约2.88万字
- 约 20页
- 2016-11-02 发布于天津
- 举报
自然语言处理的学科定位
自然语言处理的学科定位和发展特点
冯志伟
教育部语言文字应用研究所
0.引言
采用计算机技术来研究和处理自然语言是20世纪 40 年代末期和50年代才开始的,五十多年来,这项研究取得了长足的进展,成为了计当代语言学中一门重要的新兴学科--自然语言处理(Natural Language Processing,简称NLP)。在信息网络时代,自然语言处理引起了越来越多的语言学者的重视,成为了当代语言学中的“显学”。如何对自然语言处理进行正确的学科定位,使我们认识到自然语言处理在学科体系中的位置,从而自觉地推动自然语言处理的发展,是一个至关重要的问题。
我们可以从自然语言处理的过程、自然语言处理的范围以及自然语言处理的历史三个角度来考察自然语言处理的学科定位问题。从自然语言处理的过程来考察它的学科定位,是从纵的角度来讨论;从自然语言处理的范围来考察它的学科定位,是从横的角度来讨论,纵横交错,我们对于自然语言处理的学科定位就可以在共时的平面上得到比较清晰的认识。最后,我们再从自然语言处理的历史来考察,也就是从发展的角度来讨论,这样,我们对于自然语言处理的学科定位就可以在历时的平面上得到比较清晰的认识。
1. 从自然语言处理的过程来考察
首先,我们从自然语言处理的过程,也就是从纵的角度来讨论这个问题。
我们认为,计算机对自然语言的研究和处理,一般应经过如下四个方面的过程:
第一,把需要研究的问题在语言学上加以形式化,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来;这个过程可以叫做“语言的形式化”。
第二,把这种严密而规整的数学形式表示为算法,这个过程可以叫做“描述的算法化”;
第三,根据算法编写计算机程序,使之在计算机上加以实现,建立各种实用的自然语言处理系统;这个过程可以叫做“计算的程序化”。
第四,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求;这个过程可以叫做“系统的实用化”。
美国计算机科学家Bill Manaris在1999年出版的《计算机进展》(Advanced in Computers)第47卷的《从人-机交互的角度看自然语言处理》一文中曾经给自然语言处理提出了如下的定义:
“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。” 这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication, develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinement of such processes/models, and investigates techniques for evaluating the result systems.”(Bill Manaris: Natural language processing: A human-computer interaction perspective, Advances in Computers, Volume 47,1999)
Bill Manaris关于自然语言处理的这个定义,比较全面地表达了计算机对自然语言的研究和处理的上述四个方面的过程。我们认同这样的定义。
在2001年的美国电影《太空奥德赛》中(Stanley Kubrick 和 Arthur C. Charke 编, Screenplay of 2001: A Space Odyssey)机器人HAL和Dave进行了如下对话:
Dave Bownman: Open the pod bay doors, HAL.
HAL: I’m sorry Dave, I’am afraid I can’t do that.
原创力文档

文档评论(0)