面向新闻的发生地抽取研究.pdf

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

从新闻中抽取出的发生地对于舆论溯源与检索信息有所帮助,目前针对发生

地抽取的研究较少,大部分学者致力于抽取出新闻中包含的地名或是新闻事件的

抽取。命名实体识别技术无法判断哪个地名是新闻发生地,而新闻事件的抽取无法

保证一定能抽取出所有的事件要素。因此,本文针对抽取出新闻发生地这一研究任

务,为其构造了多个不同的特征,并使用两种抽取方式进行发生地抽取。

本文的主要工作流程为以下几步:(1)对文本进行预处理;(2)新闻中所有地

名与人名的识别;(3)人工标注并将其转为机器能够识别的标签;(4)知识图谱构

建;(5)计算特征向量;(6)训练模型并实验评估抽取效果。其中本文的知识图谱

使用基于关系抽取模型构建,主要用于发现地名之间的包含关系,帮助构建地名森

林。

本文从两个角度解释发生地抽取任务。其一,本文把发生地抽取看成是一个二

分问题,将文章中的每个地名词进行二分分类,识别其是发生地或非发生地。其二,

本文把发生地抽取作为一个序列标注问题来解决,预测新闻中每个词的标签,从而

找到新闻发生地。对于二分问题,本文选取了随机森林进行建模。从新闻中抽取出

所有的地名词,并为其构建特征向量,使用这些特征向量训练二分模型。对于序列

标注问题,本文使用LSTM模型,其输入是包含词向量的特征向量集合,输出是

每个词的标签。

经实验验证,二分分类的评估结果整体上好于LSTM的结果,其准确率略低

于LSTM的准确率,为93.1%;但其F1值较高,为93.4%。并通过对比实验发现

本文的评估结果要略优于近期的相似研究。

关键词:发生地;随机森林;LSTM;知识图谱

Abstract

Locationsextractedfromnewseventcanbehelpfulfortracingthesourceofpublic

opinion,retrievinginformation,etc.Fornow,thereisonlyfewworksconcentratingon

eventlocationextraction,mostresearchersfocusontheextractionoflocationsandnews

event.Namedentityrecognitioncannottellwhichlocationistheeventlocation,andnews

eventextractioncannotmakesurethatalltheelementscanbeextracted.Therefore,to

extracttheeventlocation,weutilizemanyfeatureswithtwoextractionmethodsto

completethetaskofeventlocationextraction.

Theworkflowofourapproachisasfollows:(1)preprocessthenews;(2)extractall

thelocationsandpeoplefromthenews;(3)labelthenewsmanuallyandthenconvertthe

labelsintomachinerecognizedlabels;(4)constructknowledgegraph;(5)computethe

featurevectorforeachword;(6)trainandevaluatethemodel.Knowledgegraph,which

isconstructedwithrelationextractionmodel,isusedtofindtheinclusionrelationof

locationsandbuildlocationforest.

Inthiswork,weexplaintheeventlocationex

文档评论(0)

精品资料 + 关注
实名认证
内容提供者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档