中文自然语言理解中的若干关键问题探索.pdfVIP

下载本文档

4
0
约7.81千字
约 6页
2015-07-30 发布于安徽
举报

中文自然语言理解中的若干关键问题探索.pdf

第二十届伞国计算机信息管理学术研讨会动分词结果曾都是“物理学／起来所艮难”。在20世纪80年代，在中国信息界有以笔者之一命名的“王永成分词法”E4]。但后来就是：始终不能完全满足应用的需要。笔者只好改变思路，研究仿人。人在相互交谈时，是怎样交流思想的? 经与新加坡徐杰教授讨论Es]，我把我们的认识概述如下：也就是说，我们认为：人与人进行交流时，虽然借助的是语言，但真正交流的却主要是思想。而思想则主要是通过概念而不是孤立的字与词来记忆与思维的。也就是说，我们认为：人在理解和思维时，实际上并不是以词为单位的，而是以概念为单位的；并且基本遵循短期记忆以“7土2”为限这一生理原则的，否则记不清。譬如，人对“中华人民共和国卫生部传染病防治司对先天性免疫缺陷综合症的传染防治十分关注”这句话的理解与思维，很难想象是首先把该分解成下述诸词(中华／人民／共和国／卫生／部／传染／病／防治／司／对／获得性／免疫／缺陷／综合症／的／传染／防治／十分／关注)以后才进行的。其实，一般最多是把它首先分解成下述概念(中华人民共和国卫生部传染病防治司／对获得性免疫缺陷综合症的传染防治／十分关注)而后进行理解的。纵观世界各国语言，其实都是如此! aided 英文中的“word”原与中文中的“字”相当，但今天的“computerdesign／CAD(计算机辅助设计)”则不再是一个word。我们的结论是：研发中文自然语言理解，中文分词并不必要!为什么在全国中文文摘与标引评比中，我们的系统义好(已连续七年获全国第一)又快(我们运行的时间比别人的分词时间还要少)?对被处理文件，我们不做分词这个无用功则是一大因素。 3我们的中文自然语言理解之路由于自然语言是一个约定俗成的开放集，所以：“任何语言都是一种无限集合：并且它们都是不可预测、事先覆盖和超越的”：“任何人与机器都不可能完全掌握它”。因此，“要求电脑一下子就具有人的全部自然语言的能力则是绝对不可能的”。虽然，这些论断是正确的。但是，我们又认为：迄今为止的所有已有的语言，不仅确确实实只是一个有限集，一个更有限的语义集，而且还可以用归并同义语义来缩小这个有限集合。但即使如此，人们目前还没有能力整理这一全人类的完全的语义集。不过，如果把我们的研究先局限于用得最多的语义集(以下称之为 “常用语义集(semanticsetin 义集中选出一、二个“急用语义集”进行深入的研究，我们就可能走“蚕食”的道路，逐步地、但最终会彻底解决好“自然语言理解”的问题。其实，任何人对自然语言的理解，也都是走的这个逐步增加、逐步提高的道路。对电脑，为什么我不能们让它也循此前进?我们相信：如此前行，电脑也必然会愈来愈聪明。 “急用先学”与“在用中提高”是人在学习自然语言中的二条最基本原则。因为我们先只考虑常用中急用的，它就使“难以计数的有限集”冈使用领域与频率的限制，使它一下就变成一个不大的语言集(如英语很多，如我们把它仅限制于常用的口语，那么，一般只要900句就差不多了)。在 155 第二f‘届全国计算机信息管理学术研讨会实践中，我们也让电脑坚守了这二条原则。具体地讲：第一，我们首先发动了几百位经常上网检索的大学生，让他们尽多地提供他们平时上网的提问。我们冈此而采集了几千个提问。第二，我们将这些提向聚类：首先分常见的与罕见的；我们开始只将研究的重点限制在最常见的提问。然后，我们再报据这些提问的自然语言特征进行分类，并用一定的句模(sentencespattern 具有一定语义块的有序集合[6])来归纳。对每一类句模，皆由能反映模式特点的“模式特征项” 与反映语义的“核心语义项”所组成。在深入研究中我们发现：一个句子的句义通常不仅是句子中所所包含的语义块与句模的函数，而且也是语用与语境的函数(譬如：在两人对吵时的“你好!”就与平时碰面时的“你好!”含义绝对不同)，即句义=厂(语义块(Chunk)、句模、语用、语境)。而日常人们只用关键词就能判断句子的句义基础，实际上是这些句子所处的语境、语用与句模都是人们最熟悉、最常见的，冈此，只要再知道了组成它的核心语义项(概念)，即可判知它的语义。譬如，我们已把我的学生们常用的提问归纳成几种常见的模式。模式中有下划线的部分，就组成了

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文自然语言理解中的若干关键问题探索.pdfVIP