基于特征自动选择方法的汉语隐喻计算.doc

下载文档

2
0
约1.25万字
约 13页
2019-02-26 发布于四川
举报
版权申诉
保障服务

基于特征自动选择方法的汉语隐喻计算.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于特征自动选择方法的汉语隐喻计算收稿日期：2015-11-17 录用日期：收稿日期：2015-11-17 录用日期：2016-04-06 基金项目：国家自然科学基金；国家科技支撑计划课题（2012BAH14F03）；教育部博士点基金博导类项目（20） *通信作者：dozero@xmu.edu.cn 曾华琳，周昌乐*，陈毅东，史晓东（厦门大学信息科学与技术学院，福建省仿脑智能系统重点实验室，福建厦门 361005）摘要：汉语隐喻计算是中文信息处理中的棘手难题之一。已有的隐喻识别研究多以人工方式分析和抽取隐喻特征，存在着主观性强，难以扩充的缺点，并且对于专业背景知识要求比较严格。本文基于大规模语料库的机器学习，利用最大熵分类模型，提出了一种最优特征模板自动抽取的隐喻识别算法，讨论了三种不同层次的特征模板，既包含了经典的简单特征，又将跨多个词的远距离上下文信息，以及描述语义信息的词语相似性引入特征模板进行考察。实验结果证明，该算法提高了隐喻识别准确率，是一种对于隐喻计算行之有效的机器学习方法。关键词：汉语隐喻计算；隐喻识别；机器学习；自动特征选择中图分类号：TP 391.1 文献标识码：A 隐喻，广泛的存在于人类的语言生活中。从先古哲学家亚里士多德的修辞学，到现代莱可夫的认知语言学，无论是在中文语言学，抑或是在西方语言学研究中，隐喻一直是处于前沿探索阶段的项目[1-7]。在语言学与计算机科学的交叉学科--中文信息处理中，隐喻则属于语义级别的范畴，至今仍然是亟待解决的棘手难题之一。汉语隐喻的研究，主要集中在两大方面：隐喻识别和隐喻理解，统称为隐喻计算。隐喻识别旨在从上下文环境中判断隐喻现象的存在，而隐喻理解则需要给出对于隐喻意义的推理。从方法论而言，分别有规则、统计和逻辑的方法。长期以来，在隐喻计算研究中，规则和逻辑的方法占据了主流地位。已有的研究中[8-15]，无论是纯规则，或者是规则和统计相结合的方法，规则都是由人工整理和编写的，建立在人工收集和定义描述的基础上。而通过人工进行收集和编写的规则，规模有限，主观性强，不易于扩充，这是规则方法（rule-based）的通病，也是阻碍隐喻计算实用化的症结所在。近年来，机器学习方法[17,21]运用到计算语言学的各个领域，都获得了很好的效果，特别是在大语料环境下的机器学习方法的成功使用。隐喻计算中也曾有机器学习方法的尝试，王治敏[10,14]利用最大熵模型研究了名词性汉语隐喻短语的识别，贾玉祥[13,16]则提出了基于实例的隐喻理解与生成，而在他们的研究中，特征的选取仍然是人工进行的，对每个单独的隐喻候选词，每个特殊隐喻现象的特征都进行详细考察，这要求特征的选取者对于隐喻计算模型有着深刻的认识，终究逃脱不了人工方式所带来的困境，无法将隐喻计算做到一般化的过程。为了避免人工方法所带来的缺陷，消除主观性及隐喻特征选择的不一致性，本文提出了一种基于大规模语料库的汉语隐喻的特征自动抽取方法，将机器学习中的特征选择思想引入到汉语隐喻计算中，分析汉语隐喻在词、句法结构以及语义层面上的不同特点，给出3种不同类型的特征模板描述，并利用最大熵模型构建汉语隐喻特征模板库，以无监督学习方式处理汉语隐喻计算。 1 汉语隐喻计算的机器学习分类模型分类是机器学习算法中的典型任务，基本思想是训练分类函数，然后将待分类对象以特征序列表示进行输入，通过计算分类函数得到的数值给出分类结果。隐喻计算属于典型的机器学习分类问题。本文提出一种适用于汉语隐喻计算的机器学习分类模型,用于构建隐喻计算的两个基本任务。 1.1 隐喻计算中的分类隐喻计算的不同阶段都可以建立分类模型，其理论依据在于隐喻的本质--“同从异出”，即在识别出隐喻的存在,并确定本体和喻体之后，在概念系统中，把比较具体的喻体（相当于源域）的知识，与比较抽象的本体（相当于目标域）的知识进行比较，通过动态的互动过程描述，用喻体（源域）知识来“认识”本体（目标域）对象。在这个过程中，作为本体和喻体，都有许多不同的意义描述。隐喻计算分为两个阶段进行。第一阶段，隐喻识别。从表面上看，喻体的概念范畴与本体差别较大，引起强烈的冲突感，这所谓“异出”。正确感知这种冲突感，实现隐喻识别，这是个二值分类问题。第二个阶段，隐喻理解。本体的理解，是一个依赖于喻体特征的有选择性的部分映射，这种映射过程并不是随意的，而是根据其上下文环境的限制聚焦后而得的映射结果。于是，隐喻识别和理解可以看作是在上下文环境中，本体受喻体概念聚焦后对于意义再次分类而确定相似点的过程，一旦能够正确地选定相似点，隐喻理解就完成了，这所谓找到了“同从”。隐喻的