中文自然语言理解中的若干关键问题探索.pdfVIP

  • 4
  • 0
  • 约7.81千字
  • 约 6页
  • 2015-07-30 发布于安徽
  • 举报

中文自然语言理解中的若干关键问题探索.pdf

第二十届伞国计算机信息管理学术研讨会 动分词结果曾都是“物理学/起来所艮难”。 在20世纪80年代,在中国信息界有以笔者之一命名的“王永成分词法”E4]。但后来就是:始 终不能完全满足应用的需要。笔者只好改变思路,研究仿人。人在相互交谈时,是怎样交流思想的? 经与新加坡徐杰教授讨论Es],我把我们的认识概述如下: 也就是说,我们认为:人与人进行交流时,虽然借助的是语言,但真正交流的却主要是思想。 而思想则主要是通过概念而不是孤立的字与词来记忆与思维的。也就是说,我们认为:人在理解和 思维时,实际上并不是以词为单位的,而是以概念为单位的;并且基本遵循短期记忆以“7土2”为 限这一生理原则的,否则记不清。譬如,人对“中华人民共和国卫生部传染病防治司对先天性免疫 缺陷综合症的传染防治十分关注”这句话的理解与思维,很难想象是首先把该分解成下述诸词(中 华/人民/共和国/卫生/部/传染/病/防治/司/对/获得性/免疫/缺陷/综合症/的/传染/防治/十分/关注)以后 才进行的。其实,一般最多是把它首先分解成下述概念(中华人民共和国卫生部传染病防治司/对获 得性免疫缺陷综合症的传染防治/十分关注)而后进行理解的。纵观世界各国语言,其实都是如此! aided 英文中的“word”原与中文中的“字”相当,但今天的“computerdesign/CAD(计算机辅助 设计)”则不再是一个word。我们的结论是:研发中文自然语言理解,中文分词并不必要!为什么在 全国中文文摘与标引评比中,我们的系统义好(已连续七年获全国第一)又快(我们运行的时间比 别人的分词时间还要少)?对被处理文件,我们不做分词这个无用功则是一大因素。 3我们的中文自然语言理解之路 由于自然语言是一个约定俗成的开放集,所以:“任何语言都是一种无限集合:并且它们都是不 可预测、事先覆盖和超越的”:“任何人与机器都不可能完全掌握它”。因此,“要求电脑一下子就具 有人的全部自然语言的能力则是绝对不可能的”。虽然,这些论断是正确的。 但是,我们又认为:迄今为止的所有已有的语言,不仅确确实实只是一个有限集,一个更有限 的语义集,而且还可以用归并同义语义来缩小这个有限集合。但即使如此,人们目前还没有能力整 理这一全人类的完全的语义集。不过,如果把我们的研究先局限于用得最多的语义集(以下称之为 “常用语义集(semanticsetin 义集中选出一、二个“急用语义集”进行深入的研究,我们就可能走“蚕食”的道路,逐步地、但 最终会彻底解决好“自然语言理解”的问题。其实,任何人对自然语言的理解,也都是走的这个逐 步增加、逐步提高的道路。对电脑,为什么我不能们让它也循此前进?我们相信:如此前行,电脑 也必然会愈来愈聪明。 “急用先学”与“在用中提高”是人在学习自然语言中的二条最基本原则。因为我们先只考虑 常用中急用的,它就使“难以计数的有限集”冈使用领域与频率的限制,使它一下就变成一个不大 的语言集(如英语很多,如我们把它仅限制于常用的口语,那么,一般只要900句就差不多了)。在 155 第二f‘届全国计算机信息管理学术研讨会 实践中,我们也让电脑坚守了这二条原则。具体地讲: 第一,我们首先发动了几百位经常上网检索的大学生,让他们尽多地提供他们平时上网的提问。 我们冈此而采集了几千个提问。 第二,我们将这些提向聚类:首先分常见的与罕见的;我们开始只将研究的重点限制在最常见 的提问。然后,我们再报据这些提问的自然语言特征进行分类,并用一定的句模(sentencespattern 具有一定语义块的有序集合[6])来归纳。对每一类句模,皆由能反映模式特点的“模式特征项” 与反映语义的“核心语义项”所组成。 在深入研究中我们发现:一个句子的句义通常不仅是句子中所所包含的语义块与句模的函数, 而且也是语用与语境的函数(譬如:在两人对吵时的“你好!”就与平时碰面时的“你好!”含义绝 对不同),即句义=厂(语义块(Chunk)、句模、语用、语境)。而日常人们只用关键词就能判断句子 的句义基础,实际上是这些句子所处的语境、语用与句模都是人们最熟悉、最常见的,冈此,只要 再知道了组成它的核心语义项(概念),即可判知它的语义。 譬如,我们已把我的学生们常用的提问归纳成几种常见的模式。模式中有下划线的部分,就组 成了

文档评论(0)

1亿VIP精品文档

相关文档