互联网突发事件知识库构建.pdf

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要 突发事件以其突发性、破坏性时刻威胁着社会的安康稳定,突发事件舆情更 是考验着相关部门的应急管理能力与执政水平。当今社会,互联网给予了每个人 话语权,逐渐成为事件舆论的主要阵地。这使得互联网蕴含着大量有价值的突发 事件相关知识,然而这种战略性资源却没有得到有效的挖掘与利用。知识库作为 一种管理知识的工具,能够实现对海量知识的高效管理,有效缓解“海量信息” 与“知识匮乏”的矛盾问题。现有的知识库大多数面向通用开放领域,针对特定 领域的知识库则需要专门构建。本文面向突发事件领域,构建互联网突发事件知 识库,为突发事件相关知识的挖掘、存储与管理提供一种新的思路。主要研究内 容如下: (1)突发事件数据采集与处理。利用Python 网络爬虫,结合Selenium 自 动化工具、Scrapy 框架,采集新浪微博和百度贴吧两个社交网络平台上的突发事 件信息,形成初步的事件信息库。对采集的源数据进行数据清洗、中文分词、停 用词过滤等一系列预处理操作。制定基于事件句的数据选择策略以选择出优质数 据,使用 BIO 标注体系对突发事件的涉事对象进行标注,形成包含涉事人员 (PER )、涉事组织机构 (ORG )两类实体以及非实体 (O )的标注数据集。 (2 )突发事件的涉事对象识别。以识别涉事人员、涉事组织机构两类突发 事件涉事对象为目标,训练基于word2vec 字向量的BiLSTM-CRF 模型。实验表 明,与随机初始化字向量相比,嵌入预训练的字向量提升了模型的识别效果。同 时,与单一的 HMM 、CRF、BiLSTM 几种模型相比,基于 word2vec 字向量的 BiLSTM-CRF 模型的总体识别率也较高。此模型在突发事件涉事对象的识别上具 有良好的效果。 (3 )突发事件知识库构建及可视化系统实现。突发事件知识库包含事件信 息库和涉事对象库两个子库,事件信息库为基本库,主要包含网络爬虫采集到的 事件数据;涉事对象库为扩展库,主要包含算法提取出的涉事对象信息。为了提 高知识获取的效率,搭建了互联网突发事件知识库可视化系统,展示了事件基本 信息、事件舆情信息、涉事对象信息等知识模块。通过各个模块的知识管理功能, 实现对知识库的维护与优化。 本文在互联网上采集了突发事件数据并进行一系列的数据预处理操作,训练 模型以识别突发事件中的涉事对象,并人工干预构建了涉事对象关系图,最终构 建了包含事件信息库和涉事对象库的突发事件知识库,并搭建了突发事件知识库 系统以对知识库进行可视化。 关键词:突发事件;数据采集;涉事对象识别;知识库;可视化 I Abstract Emergency events threaten the security and stability of the society with its sud- den and destructive moment. Public opinion of emergency events tests the emergency events management ability and governance level of relevant departments. In today's society, the Internet gives everyone the right to speak and becomes the main position of public opinion. This makes the Internet contain a lot of valuable emergency events related knowledge, but this strategic resource has not been effectively mined and uti- lized. As a tool of knowledge management, knowledge base can realize the efficient management of massive knowledge and effectively alleviate the contrad

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档