- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于图划分无监督汉语指代消解算法
一种基于图划分的无监督汉语指代消解算法
(1.南京大学计算机科学与技术系,江苏南京210093;
2.南京师范大学计算机科学系,江苏南京210097)
摘 要:指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。
关键词:人工智能;自然语言处理;聚类;指代消解;模块函数
中图分类号:TP391 文献标识码:A
1 引言
指代是自然语言中一种非常普遍和常见的语言现象,指代消解是文本理解不可缺少的内容。随着自然语言处理应用的日益广泛,特别是对文本处理需求的进一步增加,指代消解的作用愈来愈突出,它几乎是任何一个自然语言处理的应用领域都需要解决的问题吸引,如自然语言信息抽取、问答系统和对话解释系统等等。指代一般可分成两种情况。引:回指(Anaphora)和共指(Coreference)。回指是指当前的指示语与上文出现的词、短语之间的语义关联性;共指则主要是指多个名词短语或代名词指向现实世界中的同一实体。共指关系是等价关系,可以独立于上下文存在。而回指不一定满足等价性原则。本文所讨论的指代消解概念属于共指消解。
近年来,随着机器学习方法在许多自然语言处理领域的成功应用,研究者们正在尝试应用各种机器学习方法来解决指代消解的问题。广义上,可以将应用于指代消解中机器学习方法分为两类:有监督方法和无监督方法。
Soon et a1.[5],Ng and Cardie[5],Yang et al.[7],Luo et a1.[8]和李国臣[11]等先后都提出了不同的基于有监督机器学习方法的指代消解系统,但这些方法的中心思想都是将共指消解问题转换为一个二值分类任务,首先训练一个二值分类器(如决策树分类器等),然后应用这个分类器判断两个名词短语是否共指;接下来再使用一个独立的聚类机制来协调前面成对的共指分类过程中所产生的矛盾。这些方法虽然都取得了一定的实验效果,但这些方法都要求大量的标注有指代关系信息的训练数据,而对于中文来说,目前这种指代关系标注的训练数据是非常缺乏的。
在无监督学习方面,目前的研究相对偏少。在中文的指代消解研究方面,王厚峰提出了一种基于权值计算方法的汉语人称代词消解方法[9]。该方法是一种无监督消解方法,但这种方法主要针对人称代称代词的消解,不便用于其他类型的名词短语指代消解问题中。Cardie等曾提出通过一种经典的聚类(Clustering)方法进行名词短语的共指消解策略[10],该方法首先基于名词短语的属性特征定义一个距离函数,然后使用一个简单的启发式聚类算法进行指代消解:从文档的尾端开始向前扫描,将每一个名词短语与前面的所有的名词短语依次进行比较,如果一对名词短语间的距离函数值小于给定的阈值,则将这两个名次短语所在的类别进行合并,除非它们之间存在不兼容性。该方法存在以下两点不足:首先,该方法在聚类过程中每次均是分别针对一对名词短语进行共指决策,而实际上各对短语的共指决策之间并不是相互独立的;其次,该方法的消解效果对阈值的设定有很强的依赖性。
为此,本文提出了一种新的无监督名词短语指代算法,类似于文献[10],我们也是将名词短语的指代消解问题转化为一个无监督的聚类问题,但我们采用图来对名词短语的指代消解问题进行建模,将指代消解看成图聚类过程,从而将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,避免了阈值选择问题。本文所提出的基于图划分的指代消解算法并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,从全局的角度实现对共指等价类的划分。
2 Baseline系统
我们首先采用文献[10]中所提出的聚类算法实现了一个共指消解系统作为本文研究的Baseline。一般认为,指代同一实体的名词短语(包括代词和名词)具有某些相同或相似的属性值。类似于文献[10],我们引入下列9个属性值表示中文文本中的每一个待消解项。
(1)短语属性。直接取每个名词短语本身作为该属性值。
(2)中心词属性。一般取名词短语中的最后一个词作为中心词。
(3)位置属性。每篇文档中的名词短语从文档起始位置开始,被依次顺序编号。
(4)代词属性
文档评论(0)