- 4
- 0
- 约7.81千字
- 约 6页
- 2015-07-30 发布于安徽
- 举报
第二十届伞国计算机信息管理学术研讨会
动分词结果曾都是“物理学/起来所艮难”。
在20世纪80年代,在中国信息界有以笔者之一命名的“王永成分词法”E4]。但后来就是:始
终不能完全满足应用的需要。笔者只好改变思路,研究仿人。人在相互交谈时,是怎样交流思想的?
经与新加坡徐杰教授讨论Es],我把我们的认识概述如下:
也就是说,我们认为:人与人进行交流时,虽然借助的是语言,但真正交流的却主要是思想。
而思想则主要是通过概念而不是孤立的字与词来记忆与思维的。也就是说,我们认为:人在理解和
思维时,实际上并不是以词为单位的,而是以概念为单位的;并且基本遵循短期记忆以“7土2”为
限这一生理原则的,否则记不清。譬如,人对“中华人民共和国卫生部传染病防治司对先天性免疫
缺陷综合症的传染防治十分关注”这句话的理解与思维,很难想象是首先把该分解成下述诸词(中
华/人民/共和国/卫生/部/传染/病/防治/司/对/获得性/免疫/缺陷/综合症/的/传染/防治/十分/关注)以后
才进行的。其实,一般最多是把它首先分解成下述概念(中华人民共和国卫生部传染病防治司/对获
得性免疫缺陷综合症的传染防治/十分关注)而后进行理解的。纵观世界各国语言,其实都是如此!
aided
英文中的“word”原与中文中的“字”相当,但今天的“computerdesign/CAD(计算机辅助
设计)”则不再是一个word。我们的结论是:研发中文自然语言理解,中文分词并不必要!为什么在
全国中文文摘与标引评比中,我们的系统义好(已连续七年获全国第一)又快(我们运行的时间比
别人的分词时间还要少)?对被处理文件,我们不做分词这个无用功则是一大因素。
3我们的中文自然语言理解之路
由于自然语言是一个约定俗成的开放集,所以:“任何语言都是一种无限集合:并且它们都是不
可预测、事先覆盖和超越的”:“任何人与机器都不可能完全掌握它”。因此,“要求电脑一下子就具
有人的全部自然语言的能力则是绝对不可能的”。虽然,这些论断是正确的。
但是,我们又认为:迄今为止的所有已有的语言,不仅确确实实只是一个有限集,一个更有限
的语义集,而且还可以用归并同义语义来缩小这个有限集合。但即使如此,人们目前还没有能力整
理这一全人类的完全的语义集。不过,如果把我们的研究先局限于用得最多的语义集(以下称之为
“常用语义集(semanticsetin
义集中选出一、二个“急用语义集”进行深入的研究,我们就可能走“蚕食”的道路,逐步地、但
最终会彻底解决好“自然语言理解”的问题。其实,任何人对自然语言的理解,也都是走的这个逐
步增加、逐步提高的道路。对电脑,为什么我不能们让它也循此前进?我们相信:如此前行,电脑
也必然会愈来愈聪明。
“急用先学”与“在用中提高”是人在学习自然语言中的二条最基本原则。因为我们先只考虑
常用中急用的,它就使“难以计数的有限集”冈使用领域与频率的限制,使它一下就变成一个不大
的语言集(如英语很多,如我们把它仅限制于常用的口语,那么,一般只要900句就差不多了)。在
155
第二f‘届全国计算机信息管理学术研讨会
实践中,我们也让电脑坚守了这二条原则。具体地讲:
第一,我们首先发动了几百位经常上网检索的大学生,让他们尽多地提供他们平时上网的提问。
我们冈此而采集了几千个提问。
第二,我们将这些提向聚类:首先分常见的与罕见的;我们开始只将研究的重点限制在最常见
的提问。然后,我们再报据这些提问的自然语言特征进行分类,并用一定的句模(sentencespattern
具有一定语义块的有序集合[6])来归纳。对每一类句模,皆由能反映模式特点的“模式特征项”
与反映语义的“核心语义项”所组成。
在深入研究中我们发现:一个句子的句义通常不仅是句子中所所包含的语义块与句模的函数,
而且也是语用与语境的函数(譬如:在两人对吵时的“你好!”就与平时碰面时的“你好!”含义绝
对不同),即句义=厂(语义块(Chunk)、句模、语用、语境)。而日常人们只用关键词就能判断句子
的句义基础,实际上是这些句子所处的语境、语用与句模都是人们最熟悉、最常见的,冈此,只要
再知道了组成它的核心语义项(概念),即可判知它的语义。
譬如,我们已把我的学生们常用的提问归纳成几种常见的模式。模式中有下划线的部分,就组
成了
您可能关注的文档
最近下载
- 档案整理及数字化投标方案(517页).doc VIP
- 第六章+第三节++黄土高原课件-2023-2024学年商务星球版地理八年级下册.pptx VIP
- 高一上期末数学试卷(含答案).doc VIP
- 2024年11月全国事业单位联考综合应用能力(A类)试题及参考答案.pdf VIP
- 《地理信息系统原理与应用》课程标准.doc VIP
- 商务星球版初中地理八年级下册第六章第三节黄土高原.pptx VIP
- 病句的修改大全修改病句大全及答案.docx VIP
- 1.《地理信息系统技术应用》课程标准.docx VIP
- 最优控制-西安交通大学课件lecture07.ppt VIP
- 最优控制-西安交通大学课件lecture5.ppt VIP
原创力文档

文档评论(0)