一种改进中文实体关系抽取方法.docVIP

下载本文档

97
0
约5.62千字
约 11页
2018-08-13 发布于福建
举报
版权申诉

一种改进中文实体关系抽取方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进中文实体关系抽取方法

一种改进的中文实体关系抽取方法　　摘要：实体关系抽取是指从文本中发现两个实体之间的关系。提出一种新的基于语义核的中文实体关系抽取方法，在通常的序列核中嵌入语义信息，然后用改进后的k均值算法进行聚类。实验结果证明我们的方法是比较有潜力的。?? 　　关键词：关系抽取；k均值；语义核?? 　　中图分类号：TP301 文献标识码：A 文章编号：1672-7800（2011）04-0027-03?お? 　　?? 　　作者简介：刘建舟(1979-)，男，湖北孝感人，湖北工业大学讲师，研究方向为自然语言处理；邵雄凯(1963-),男,湖北武穴人,博士,湖北工业大学教授,研究方向为数据库技术及其应用。　　　　1 中文实体关系抽取方法介绍?? 　　实体识别、关系抽取和事件抽取等是信息抽取包含的几个子任务。实体关系抽取不仅是信息抽取中的一项重要任务，也是事件抽取和其他应用的基础。关系抽取的主要任务是搜索并判定命名实体之间的特定关系。?? 　　例如：在句子“抗议者抢夺了几个加油站”，关系抽取的任务就是识别“抗议者”（PERSON实体）和“加油站”（LOCATION实体）之间的“LOCATED AT”关系。?? 　　目前，至少有3种学习模式被应用到关系抽取任务中：有导、半指导和无指导方法。?? 　　在有导方法中，首先对语料库中的句子进行人工标注实体及之间的关系，然后进行训练，并开始抽取。这种方法有个局限性：标注训练语料库是一个非常耗时、耗精力的事情，所以一般很难推广。半指导的方法是首先使用种子模式，然后进行自举学习。然后用这些种子去抽取新的模式，并用这种新的模式继续抽取新的种子。这种方法的问题是种子的选择存在很大的主观性。如果种子没选择好，会导致错误累积上升。无指导的方法是从语料库中抽取实体之间的文本，然后聚类，并从中选择能代表关系类型的词。这种方法使用大规模的语料去抽取大量的关系。问题就在于对于关系的匹配需要一个特定的知识库。?? 　　在本文中，我们提出了一个无指导的基于语义核的方法。我们的方法主要分两步：①对于每一个实体对，抽取它们的共现上下文;②使用改进后的k均值算法对这些上下文进行聚类，聚类过程中使用语义核计算上下文的相似度。?? 　　本文余下部分是这样组织的：第2节将介绍已有的核函数，并定义中文语义核；本文提出的抽取算法将在第3 　　节中详细描述；第4节将给出实验结果，最后在第5节中给出结论及未来展望。?? 　　2 语义核?? 　　2.1 序列核?? 　　设?А?-1,∑-2,…,∑-k是一些离散的特征空间。如∑-1可表示词的集合,∑-2是词性标注集等等。设 ∑-×=∑-1×∑-2×…×∑-k是所有可能特征向量集，一个向量集可以跟一个句子中的每个位置关联起来。给定两个特征向量x,y∈∑-×,设c(x,y)表示x和y之间公共特征的数量。接下来符号如下，它们在[7]中定义过。因此，设s,t是在有限集∑-×中的两个句子，|s| 表示句s=s-1…s-{|s|}的长度。s[i:j]表示句子s的连续子序列si…sj。i =(i-1,…,i-｛|i|｝) 是一个子序列在s中的|i|个索引，用升序的方式排序。我们定义索引序列i在s中的长度l(i)为i-{|i|}-i-1 +1。同理，j是t中一个长度为|j|的子序列。设∑-∪= ∑-1∪∑-2∪…∪∑-k为所有可能特征的集合。这样，序列u∈∑*∪是s的一个子序列，如果一个索引i的长度为|u|，如对于k=1,…,|u|，有u-k∈s-{ik}。?? 　　最后，设K-n(s,t) (见公式1)是指句子s和t中，长度为n的加权稀疏子序列u的公共子序列的数量（如u∈s[i],u∈t[j]），u的加权是λ+{l(i)+l(j)}，对于λ?А?1。?И? 　　K-n(s,t)= ∑u∈∑+n-∪∑i:u∈s[i]∑j:u∈t[j]λ+{l(i)+l(j)}[JY] (1)?И? 　　因为对两个固定的所有??i和j，都有长度为n，集合{u∈∑+n-∪｜u∈s[i],u∈t[j]}的大小为∏+n-{k=1}c(s-{i-k},t-{j-k})，所以可以把K-n(s,t)重??新定义如下：?И? 　　K-n(s,t)= ∑i:｜i｜=n∑j:｜j｜=n∏n[]k=1c(s-{i-k},t-{j-k})λ+{l(i)+l(j)}[JY] (2)?И? 　　如果直接计算，其时间复杂性和空间复杂性均为??O(|∑|+n)?В?计算量较大。实际上，对于大的文档可能有大部分特征有非零个成分。为了提高计这个核的效率，得设计一个有效的计算过程，下面定义一个递归计算来减少算法的复杂性。?И? 　　K′-n(s,t)= ∑i:｜i｜=n∑j:｜j｜=n∏n[]k=1c(s-{i-