- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于树核函数人物关系抽取研究
彭成钱龙华周国栋汇报人:彭成苏州大学自然语言处理试验室/第1页第1页
提纲引言相关工作研究动机我们办法试验结果与分析下一步工作第2页第2页
引言人物关系抽取 人物关系抽取是实体关系抽取一个主要分支,旨在抽取人名实体之间各种社会关系。比如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(CONTACT)。研究意义 WEB给我们提供了一个巨大信息库,其中隐藏着大量用户感兴趣实体及其互相关系。 人物关系抽取技术对社会网络构建、问答系统等均含有主要意义。第3页第3页
相关工作基于共现办法:Kautz等(1997):ReferralWeb.Mika():Flink.基于机器学习办法:Matsuo等():基于决议树C4.5分类器。姚从磊等():基于模拟退火算法。Jing等():基于命名实体辨认、关系检测、事件检测。Elson等():基于角色名称辨认和对话检测。Agarwal等():基于社会交互事件检测。第4页第4页
研究动机存在问题:当前针对人物关系抽取研究普通只涉及特定领域或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较单一。既有条件:伴随基于核函数广泛采用,实体关系抽取技术得到快速发展并日臻成熟。能否利用树核函数从新闻领域文本中抽取丰富人物关系?如何提升其抽取性能?第5页第5页
人物关系抽取办法人物关系定义静态人物关系:ACE语料原有定义PER-SOC关系(Business,Family,Lasting-Personal)。动态人物关系:重新定义ACECONTACT事件(Meet,Phone-Write)为交互关系。基于树核函数人物关系抽取办法结构化信息结构《同义词词林》语义信息融合重采样技术应用第6页第6页
结构化信息结构删除实体并列结构(RMV_ENTITY_CC) 当连接两个实体节点路径中出现并列结构时,能够删除其中一个并列部分。删除NP并列结构(RMV_NP_CC_NP) 当连接两个NP节点路径中出现并列结构时,保留最短路径所通过那个并列部分。恢复右侧动词(EXT_RIGHT_VERB) 扩展第二个实体到最低公共节点之间出现动词短语结构。第7页第7页
结构化信息结构(续)第8页第8页
语义信息融合语义信息对实体间语义关系抽取含有主要指导作用,我们在句法树中加入了两个实体词汇在《同义词词林》语义编码信息。第9页第9页
重采样技术应用第10页第10页
试验试验设置人物关系语料库包括关系正例880个,关系负例18599个。人物关系类型主要为PER-SOC类和CONTACT类。本文试验采用五倍交叉验证策略。选择SVM作为分类器,采用开源工具为支持卷积树核函数SVMLightTK工具包。评估原则采用惯用准确率(P),召回率(R)和F1指标(F1)。本文采用近似随机技术进行明显性测试,并分别使用双下划线、单下划线和无下划线表示p≤0.01、0.01<p≤0.05和p>0.05,即差别非常明显、明显和不明显。第11页第11页
试验结果——裁剪特性影响裁剪规则PER-SOCContactTotalPRF1PRF1PRF1SPT(baseline)80.738.952.375.810.518.478.831.845.3+RMV_ENTITY_CC80.939.552.979.611.519.979.932.546.1(80.9)(39.5)(52.9)(79.6)(11.5)(19.9)(79.9)(32.5)(46.1)+RMV_NP_CC_NP82.439.853.581.718.229.681.634.348.3(81.5)(38.4)(52.0)(83.3)(21.0)(33.5)(81.3)(34.0)(47.8)+EXT_RIGHT_VERB81.839.653.381.221.533.981.035.048.8(80.9)(38.3)(52.8)(62.0)(11.0)(18.6)(75.9)(32.6)(45.5)结论:1.三种裁剪策略对总体性能提升明显。2.Contact类型F1值明显低于PER-SOC类型,同时,其性能提升幅度不小于PER-SOC类型。第12页第12页
试验结果——语义信息影响词林类别PER-SOCContactTotalPRF1PRF1PRF1SPT-OPT(baseline)81.839.653.381.221.533.981.035.048.8SPT-OPT+CL_B81.938.151.881.823.536.281.234.348.1SPT-OPT+CL_M78.741.654.379.422.534.978.236.749.9S
文档评论(0)