网站大量收购独家精品文档,联系QQ:2885784924

基于特征自动选择方法的汉语隐喻计算.doc

基于特征自动选择方法的汉语隐喻计算.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于特征自动选择方法的汉语隐喻计算收稿日期:2015-11-17 录用日期: 收稿日期:2015-11-17 录用日期:2016-04-06 基金项目:国家自然科学基金;国家科技支撑计划课题(2012BAH14F03);教育部博士点基金博导类项目(20) *通信作者:dozero@xmu.edu.cn 曾华琳,周昌乐*,陈毅东,史晓东 (厦门大学信息科学与技术学院,福建省仿脑智能系统重点实验室,福建 厦门 361005) 摘要:汉语隐喻计算是中文信息处理中的棘手难题之一。已有的隐喻识别研究多以人工方式分析和抽取隐喻特征,存在着主观性强,难以扩充的缺点,并且对于专业背景知识要求比较严格。本文基于大规模语料库的机器学习,利用最大熵分类模型,提出了一种最优特征模板自动抽取的隐喻识别算法,讨论了三种不同层次的特征模板,既包含了经典的简单特征,又将跨多个词的远距离上下文信息,以及描述语义信息的词语相似性引入特征模板进行考察。实验结果证明,该算法提高了隐喻识别准确率,是一种对于隐喻计算行之有效的机器学习方法。 关键词:汉语隐喻计算;隐喻识别;机器学习;自动特征选择 中图分类号:TP 391.1 文献标识码:A 隐喻,广泛的存在于人类的语言生活中。从先古哲学家亚里士多德的修辞学,到现代莱可夫的认知语言学,无论是在中文语言学,抑或是在西方语言学研究中,隐喻一直是处于前沿探索阶段的项目[1-7]。在语言学与计算机科学的交叉学科--中文信息处理中,隐喻则属于语义级别的范畴,至今仍然是亟待解决的棘手难题之一。 汉语隐喻的研究,主要集中在两大方面:隐喻识别和隐喻理解,统称为隐喻计算。隐喻识别旨在从上下文环境中判断隐喻现象的存在,而隐喻理解则需要给出对于隐喻意义的推理。从方法论而言,分别有规则、统计和逻辑的方法。长期以来,在隐喻计算研究中,规则和逻辑的方法占据了主流地位。已有的研究中[8-15],无论是纯规则,或者是规则和统计相结合的方法,规则都是由人工整理和编写的,建立在人工收集和定义描述的基础上。而通过人工进行收集和编写的规则,规模有限,主观性强,不易于扩充,这是规则方法(rule-based)的通病,也是阻碍隐喻计算实用化的症结所在。近年来,机器学习方法[17,21]运用到计算语言学的各个领域,都获得了很好的效果,特别是在大语料环境下的机器学习方法的成功使用。隐喻计算中也曾有机器学习方法的尝试,王治敏[10,14]利用最大熵模型研究了名词性汉语隐喻短语的识别,贾玉祥[13,16]则提出了基于实例的隐喻理解与生成,而在他们的研究中,特征的选取仍然是人工进行的,对每个单独的隐喻候选词,每个特殊隐喻现象的特征都进行详细考察,这要求特征的选取者对于隐喻计算模型有着深刻的认识,终究逃脱不了人工方式所带来的困境,无法将隐喻计算做到一般化的过程。 为了避免人工方法所带来的缺陷,消除主观性及隐喻特征选择的不一致性,本文提出了一种基于大规模语料库的汉语隐喻的特征自动抽取方法,将机器学习中的特征选择思想引入到汉语隐喻计算中,分析汉语隐喻在词、句法结构以及语义层面上的不同特点,给出3种不同类型的特征模板描述,并利用最大熵模型构建汉语隐喻特征模板库,以无监督学习方式处理汉语隐喻计算。 1 汉语隐喻计算的机器学习分类模型 分类是机器学习算法中的典型任务,基本思想是训练分类函数,然后将待分类对象以特征序列表示进行输入,通过计算分类函数得到的数值给出分类结果。隐喻计算属于典型的机器学习分类问题。本文提出一种适用于汉语隐喻计算的机器学习分类模型,用于构建隐喻计算的两个基本任务。 1.1 隐喻计算中的分类 隐喻计算的不同阶段都可以建立分类模型,其理论依据在于隐喻的本质--“同从异出”,即在识别出隐喻的存在,并确定本体和喻体之后,在概念系统中,把比较具体的喻体(相当于源域)的知识,与比较抽象的本体(相当于目标域)的知识进行比较,通过动态的互动过程描述,用喻体(源域)知识来“认识”本体(目标域)对象。在这个过程中,作为本体和喻体,都有许多不同的意义描述。隐喻计算分为两个阶段进行。第一阶段,隐喻识别。从表面上看,喻体的概念范畴与本体差别较大,引起强烈的冲突感,这所谓“异出”。正确感知这种冲突感,实现隐喻识别,这是个二值分类问题。第二个阶段,隐喻理解。本体的理解,是一个依赖于喻体特征的有选择性的部分映射,这种映射过程并不是随意的,而是根据其上下文环境的限制聚焦后而得的映射结果。于是,隐喻识别和理解可以看作是在上下文环境中,本体受喻体概念聚焦后对于意义再次分类而确定相似点的过程,一旦能够正确地选定相似点,隐喻理解就完成了,这所谓找到了“同从”。隐喻的

文档评论(0)

xiaowei110 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档