- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
从新闻中抽取出的发生地对于舆论溯源与检索信息有所帮助,目前针对发生
地抽取的研究较少,大部分学者致力于抽取出新闻中包含的地名或是新闻事件的
抽取。命名实体识别技术无法判断哪个地名是新闻发生地,而新闻事件的抽取无法
保证一定能抽取出所有的事件要素。因此,本文针对抽取出新闻发生地这一研究任
务,为其构造了多个不同的特征,并使用两种抽取方式进行发生地抽取。
本文的主要工作流程为以下几步:(1)对文本进行预处理;(2)新闻中所有地
名与人名的识别;(3)人工标注并将其转为机器能够识别的标签;(4)知识图谱构
建;(5)计算特征向量;(6)训练模型并实验评估抽取效果。其中本文的知识图谱
使用基于关系抽取模型构建,主要用于发现地名之间的包含关系,帮助构建地名森
林。
本文从两个角度解释发生地抽取任务。其一,本文把发生地抽取看成是一个二
分问题,将文章中的每个地名词进行二分分类,识别其是发生地或非发生地。其二,
本文把发生地抽取作为一个序列标注问题来解决,预测新闻中每个词的标签,从而
找到新闻发生地。对于二分问题,本文选取了随机森林进行建模。从新闻中抽取出
所有的地名词,并为其构建特征向量,使用这些特征向量训练二分模型。对于序列
标注问题,本文使用LSTM模型,其输入是包含词向量的特征向量集合,输出是
每个词的标签。
经实验验证,二分分类的评估结果整体上好于LSTM的结果,其准确率略低
于LSTM的准确率,为93.1%;但其F1值较高,为93.4%。并通过对比实验发现
本文的评估结果要略优于近期的相似研究。
关键词:发生地;随机森林;LSTM;知识图谱
Abstract
Locationsextractedfromnewseventcanbehelpfulfortracingthesourceofpublic
opinion,retrievinginformation,etc.Fornow,thereisonlyfewworksconcentratingon
eventlocationextraction,mostresearchersfocusontheextractionoflocationsandnews
event.Namedentityrecognitioncannottellwhichlocationistheeventlocation,andnews
eventextractioncannotmakesurethatalltheelementscanbeextracted.Therefore,to
extracttheeventlocation,weutilizemanyfeatureswithtwoextractionmethodsto
completethetaskofeventlocationextraction.
Theworkflowofourapproachisasfollows:(1)preprocessthenews;(2)extractall
thelocationsandpeoplefromthenews;(3)labelthenewsmanuallyandthenconvertthe
labelsintomachinerecognizedlabels;(4)constructknowledgegraph;(5)computethe
featurevectorforeachword;(6)trainandevaluatethemodel.Knowledgegraph,which
isconstructedwithrelationextractionmodel,isusedtofindtheinclusionrelationof
locationsandbuildlocationforest.
Inthiswork,weexplaintheeventlocationex
您可能关注的文档
- 空心阴极稳态寿命限制机理及拓展方法研究.pdf
- 冷成形钢矩形管梁在循环荷载作用下的截面分类研究.pdf
- 锂空气电池电解液添加剂及碳电极的改性研究.pdf
- 锂离子电池硅碳复合负极材料制备及性能研究.pdf
- 联合试验平台控制台与组件运行容器开发.pdf
- 铝合金厚板超窄间隙摆动激光焊接特性研究.pdf
- 铝空气电池电解液添加剂的研究.pdf
- 铝钨双掺氧化锌陶瓷的制备及热电性能研究.pdf
- 密封电子元器件多余物检测信号调理优化与组件信号识别.pdf
- 密集热点区域无线网络性能分析与优化.pdf
- DB44_T 2607.4-2025 滨海蓝碳碳汇能力调查与核算技术指南 第4部分:盐沼.pdf
- DB43_T 3178-2024 烟叶农场建设管理要求.pdf
- DB37_T 4838-2025 含氢分布式综合能源系统运行优化指南.pdf
- DB37_T 4834-2025 高速公路集中养护工作指南.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
文档评论(0)