- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
双字组合理解模式探索.
双字组合理解模式探索
王淑华
(上海大学 文学院,上海200444)
提要:新词语不断增加,计算机处理真实文本时不可避免地要面对大量的未登录词。本文认为,从词典中的已登录词出发,描写每个单字的构词属性,如构词时的位置、能产的构词模式、处于不同位置的单字构词时对另一个构词成分在句法和语义上的要求、组合以后的意义理解模式等,有助于计算机准确地识别和理解未登录词。
关键词:双字组合 未登录词 意义组合原理
引言
近年来,随着社会生活、科学技术以及人们思想观念的发展变化,新词语在不断增加。《现代汉语词典》第5版中新增词语有6000余条,而《现代汉语新词语信息(电子)词典》中一共收录了近4万个新词语[1]。事实上,不管工具书、在线词典等规模有多大、更新有多快,都不可能覆盖语言中的全部词汇。计算机在处理真实文本时,不可避免地要面对大量的未登录词。
虽然汉语中的词汇在不断地发展变化,但是用于组词的汉字并没有增加,常用汉字一直有着极高的覆盖率。据冯志伟(1997)统计:2400个常用汉字的覆盖率是99%,3800个常用汉字的覆盖率是99.9%。鲁川(2003)指出:随着信息时代的到来,“新词”和“未登录词”激增,但是“汉字”未增,“这就证明了:汉族人既有用旧字创造新词的能力,又有看旧字懂新词的领悟力”,所以“我国人工智能学者和语言学者要通力合作,让电脑模拟汉族人看旧字懂新词的智力。” [3]
0.3 不仅组成“新词”和“未登录词”的“汉字”没有增加,而且“新词”和“未登录词”的内部构造方式也没有变化。亢世勇(2001)和苏新春(2003)的考察结果基本相同:新词语的构词方法以复合式为主,复合式词语中,又以偏正、述宾、联合三种结构最多。
0.4 苑春法(1995)以汉语语素数据库中的22016个复合名词、15666个复合动词、3276个复合形容词为考察对象,比较全面地考察了汉语复合词中词义与语素义之间的关系。他指出:“复合词的词义和组成复合词的语素意义之间关系密切,语素在构词时意义绝大多数保持不变,少数变化情况又是有规律可循,这使语素可以在未登录词处理的研究方面起很大的作用”。
0.5 基于以上几点,我们认为,加强对单字(单音节语素)构词属性的描写,可以帮助计算机正确地处理未登录词;明确每个单字构词时对另一个构词成分在语法、语义上的限制与要求,有助于计算机正确地识别出未登录词;明确每个单字和不同类型的构词成分组合时的语义表现以及组合后的意义内容,有助于计算机准确地求解出未登录词的词性和意义。
1 双字组合的理解模式
1.1 意义组合原理与复合词的词义
意义组合原理(principle of compositionality)也叫弗雷格原理,由现代数理逻辑的创始人、德国著名的数学家、哲学家、逻辑学家弗雷格(Frege)提出。其基本思想是“一个复合表达式的意义是它的部分表达式意义的函项”。美国逻辑学家蒙塔古(Montague)在此基础上更进一步,主张把自然语言作为与逻辑人工语言本质上相通的一种符号形式系统进行研究。他认为,不仅复合句的意义由其直接构成成分的意义组合而成,其它语言表达式(如短语)也是如此。复合语言表达式的意义组合,不仅有直接成分的意义参与,还和直接成分组合时所用的结构运算的意义分不开。确切地说,复合语言表达式的意义是语形结构运算的意义对直接成分的意义进行语义运算的结果。这是蒙塔古对意义组合原理更彻底更严格的表述。
就汉语而言,对于一个由单字A、B组成语言单位AB来说,单位AB的意义不仅与直接成分A、B的意义有关,还和A、B的组合方式有关。例如,一个动语素和一个名语素组成一个复合词,光知道A、B本身的意义和性质并不足以求出单位AB的意义和性质,还需要知道A和B是以什么样的方式组合的。如果AB是动宾结构,而且宾语是动词词义内部规定的内容,那么求解单位AB的意义,把B的意义代入A意义中的相关部分即可;如果AB是定中结构,那么一般是把A的意义加在B的意义之上。
1.2 计算机理解未登录词
对于计算机来说,理解未登录词的过程,其实就是一个利用已知条件进行推理的过程。计算机遇到未登录词时,总是先把它们分割为单个的汉字,处理的首要目的就是要判断单字是否能够重新组合,如果能组合起来,再进一步判断其性质,求解出词义。正确理解未登录词,需要下列信息作为基础:
(1)每个单字的意义和语法性质;
(2)每个单字的构词模式;
(3)不同单字对与之组合的另一个单字在语法性质上的要求;
(4)不同单字对与之组合的另一个单字在意义上的选择;
(5)上下文对该空位的要求。
例如,遇到未登录词“AB”,计算机首先把“AB”分为A、B两个单字,然后判断A、B是否有组合的可能。首先要查词典,了解是否有“A ”和“ B”这样的词语模存在,然后看A是
文档评论(0)