一种改进中文实体关系抽取方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进中文实体关系抽取方法

一种改进的中文实体关系抽取方法   摘 要:实体关系抽取是指从文本中发现两个实体之间的关系。提出一种新的基于语义核的中文实体关系抽取方法,在通常的序列核中嵌入语义信息,然后用改进后的k均值算法进行聚类。实验结果证明我们的方法是比较有潜力的。??   关键词:关系抽取;k均值;语义核??   中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2011)04-0027-03?お?   ??   作者简介:刘建舟(1979-),男,湖北孝感人,湖北工业大学讲师,研究方向为自然语言处理;邵雄凯(1963-),男,湖北武穴人,博士,湖北工业大学教授,研究方向为数据库技术及其应用。      1 中文实体关系抽取方法介绍??   实体识别、关系抽取和事件抽取等是信息抽取包含的几个子任务。实体关系抽取不仅是信息抽取中的一项重要任务,也是事件抽取和其他应用的基础。关系抽取的主要任务是搜索并判定命名实体之间的特定关系。??   例如:在句子“抗议者抢夺了几个加油站”,关系抽取的任务就是识别“抗议者”(PERSON实体)和“加油站”(LOCATION实体)之间的“LOCATED AT”关系。??   目前,至少有3种学习模式被应用到关系抽取任务中:有导、半指导和无指导方法。??   在有导方法中,首先对语料库中的句子进行人工标注实体及之间的关系,然后进行训练,并开始抽取。这种方法有个局限性:标注训练语料库是一个非常耗时、耗精力的事情,所以一般很难推广。半指导的方法是首先使用种子模式,然后进行自举学习。然后用这些种子去抽取新的模式,并用这种新的模式继续抽取新的种子。这种方法的问题是种子的选择存在很大的主观性。如果种子没选择好,会导致错误累积上升。无指导的方法是从语料库中抽取实体之间的文本,然后聚类,并从中选择能代表关系类型的词。这种方法使用大规模的语料去抽取大量的关系。问题就在于对于关系的匹配需要一个特定的知识库。??   在本文中,我们提出了一个无指导的基于语义核的方法。我们的方法主要分两步:①对于每一个实体对,抽取它们的共现上下文;②使用改进后的k均值算法对这些上下文进行聚类,聚类过程中使用语义核计算上下文的相似度。??   本文余下部分是这样组织的:第2节将介绍已有的核函数,并定义中文语义核;本文提出的抽取算法将在第3   节中详细描述;第4节将给出实验结果,最后在第5节中给出结论及未来展望。??   2 语义核??   2.1 序列核??   设?А?-1,∑-2,…,∑-k是一些离散的特征空间。如∑-1可表示词的集合,∑-2是词性标注集等等。设 ∑-×=∑-1×∑-2×…×∑-k是所有可能特征向量集,一个向量集可以跟一个句子中的每个位置关联起来。给定两个特征向量x,y∈∑-×,设c(x,y)表示x和y之间公共特征的数量。接下来符号如下,它们在[7]中定义过。因此,设s,t是在有限集∑-×中的两个句子,|s| 表示句s=s-1…s-{|s|}的长度。s[i:j]表示句子s的连续子序列si…sj。i =(i-1,…,i-{|i|}) 是一个子序列在s中的|i|个索引, 用升序的方式排序。我们定义索引序列i在s中的长度l(i)为i-{|i|}-i-1 +1。同理,j是t中一个长度为|j|的子序列。设∑-∪= ∑-1∪∑-2∪…∪∑-k为所有可能特征的集合。这样,序列u∈∑*∪是s的一个子序列,如果一个索引i的长度为|u|,如对于k=1,…,|u|,有u-k∈s-{ik}。??   最后,设K-n(s,t) (见公式1)是指句子s和t中,长度为n的加权稀疏子序列u的公共子序列的数量(如u∈s[i],u∈t[j]),u的加权是λ+{l(i)+l(j)},对于λ?А?1。?И?   K-n(s,t)= ∑u∈∑+n-∪∑i:u∈s[i]∑j:u∈t[j]λ+{l(i)+l(j)}[JY] (1)?И?    因为对两个固定的所有??i和j,都有长度为n,集合{u∈∑+n-∪|u∈s[i],u∈t[j]}的大小为∏+n-{k=1}c(s-{i-k},t-{j-k}),所以可以把K-n(s,t)重??新定义如下:?И?   K-n(s,t)= ∑i:|i|=n∑j:|j|=n∏n[]k=1c(s-{i-k},t-{j-k})λ+{l(i)+l(j)}[JY] (2)?И?    如果直接计算,其时间复杂性和空间复杂性均为??O(|∑|+n)?В?计算量较大。实际上,对于大的文档可能有大部分特征有非零个成分。为了提高计这个核的效率,得设计一个有效的计算过程,下面定义一个递归计算来减少算法的复杂性。?И?   K′-n(s,t)= ∑i:|i|=n∑j:|j|=n∏n[]k=1c(s-{i-

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档