基于关系相似度计算实体关系分类探究.docVIP

下载本文档

4
0
约2.42千字
约 5页
2017-09-06 发布于福建
举报
版权申诉

基于关系相似度计算实体关系分类探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关系相似度计算实体关系分类探究

基于关系相似度计算实体关系分类探究摘要：实体关系抽取和实体关系分类是信息抽取中重要的研究领域，不仅要识别文本中的实体，还要确定这些实体之间的关系，能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型，并针对7种常见实体关系进行了分类实验。关键词：SVD；关系相似度；实体关系分类中图分类号：TP392文献标识码：A文章编号2013）004013002 基金项目：河南省教育厅基础与前沿技术研究项目（122300410048）作者简介：郭丽（1984-），女，硕士，中原工学院软件学院助教，研究方向为云计算、数据挖掘、自然语言处理；刘磊（1981-），男，硕士，郑州航空工业管理学院讲师，研究方向为文本挖掘、自然语言处理。 0引言在信息抽取中，不但要抽取信息中的实体，还要确定这些实体间的关系。通常，词对限定为由名词及其修饰语组成，而不同应用背景下的词对关系也会有所差别，如ACE评测中的关系有地理位置关系（PHYS）、雇佣关系（EMPORG）等。假设文本中提到“北京大学校长”，其中“校长”和“北京大学”分别为人物实体和组织实体，而它们之间又构成一种雇佣关系（EMPORG），即“校长”受雇于“北京大学”。如果说信息抽取将文本转化为数据表格，实体抽取确定了表格中各个元素的话，实体关系抽取则是确定这些元素在表格中的相对位置。 1关系相似度关系相似度最主要的应用是对语义关系分类，通常是辨别一对词语（一般限定为名词及其修饰语）间的关系类别。如：“奥巴马”与“美国”的关系应当是国家领导人与国家的关系。而现实世界的语义类别众多，我们不可能将所有的语义关系都定义出来，而是根据不同的应用领域制定不同的分类标准。Nastase和Szpakowicz（2003）对通用领域的名词—修饰语总结了5大类30种关系，Fillmore和Hearst（2002）将医学领域的名词及形容词分为13种关系，而Turney和Littman（2005）则将名词—修饰语词对关系分为5类。笔者曾对存在较多语义关系词对的中文专利语料（专利中术语较多，而术语往往由修饰词和中心语组成）进行实验，并根据知网中词语间关系的分类体系，将词对间的关系细分为10种，如表1。 2实体关系抽取实体是命名实体的简称，常见的实体有地名、人名、组织机构名等。实体关系分类就是按照一定的分类体系，将这些不同的实体对归属到自己的类别当中，如：“华盛顿”、“美国”的关系与“平壤”、“朝鲜”的关系一样，都是首都与国家的关系。本文主要研究新闻语料中的实体关系分类，通过总结实验语料获得的7种常见实体关系，作为本文实验的关系类别，如表2所示。 3实验内容 KNN算法是机器学习算法中较简单的一个分类算法，整体思想是计算一个点A与其它所有点之间的距离，取出与该点最近的k个点，然后统计k个点里面所属分类比例最大的，则点A属于该分类。作者在2009年提出基于奇异值分解的关系相似度计算方法，是利用同义词词典，将组成词对的每个词进行同义词扩展以组成新的词对，统计词对的上下文并泛化为模板，以其代表词对内词语间的关系，通过计算模板向量间的夹角余弦值来代表词对间的关系相似度。本文使用KNN分类算法对测试词对进行实体关系分类，采用基于奇异值分解的关系相似度算法计算不同词对之间的相似度，作为词对之间的距离。利用基于关系相似度的实体关系分类算法，对NTCIR7语料中识别的实体之间的关系分为七大类（见表2），并对其进行验证和分析。 3.1实验语料本文采用NTCIR7的测试语料，共800余兆，表3为本文实验语料具体分布。 3.2评价方法信息检索、分类、识别、翻译等领域的两个最基本指标是召回率（Recall Rate）和准确率（Precision Rate），召回率也叫查全率，准确率也叫查准率。本文采取准确率、召回率和F值对分类结果进行评价。 4实验结果本文首先为表2中R1～R7类的每个类别设定20个种子词对，如：R1中的“美国”、“日本”，“美国”、“英国”等；R3中的“吴作栋”、“新加坡”，“温家宝”、“中国”等。选择除种子词对外的35个词对（各类5个测试词对），采用基于关系相似度的实体关系分类算法进行测试。表4和表5分别列出了开放和封闭测试的结果。从表4和表5中可看出，在开放测试中，关系R7的分类结果较差，主要原因是由于选择的种子词对较少，导致开放测试效果不佳，尤其是R7的分类效果最差。另外关系模板的数量和覆盖率对分类结果也有较大的影响，许多模板被作为噪声数据过滤掉，从而导致该类特征不明显，使得分类结果较差。从上述试验结果可以看出，将关