网络舆情分析中网页信息预处理方案的实现.pdfVIP

网络舆情分析中网页信息预处理方案的实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络舆情分析中网页信息预处理方案的实现.pdf

网络舆情分析中网页信息预处理方案的实现 李舒晨刘 云李勇 (北京交通大学通信与信息系统北京市重点实验室,北京100044) [摘要]网络真情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技 过网页URL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。 [关键词]真情分析;预处理;信息抽取;解析模板;数据存储 施较困难。工程上,已有的舆情分析系统,对子网页信息的抽 1.引言 取多基于网页结构的分析,利用模板进行网页信息的抽取, 随着社会信息化的发展,特别是网络的迅猛发展,网络 这方面的研究包括:模板化网页主题信息提取的研究[51,以 舆情越来越引起人们的重视。所谓舆情,是指在一定的社会 及针对模板生成网页的自动信息提取的研究嗍。 空间内,围绕中介性社会事件的发生、发展和变化,民众对 本文针对预处理模块所要完成的各项功能,介绍了一套 社会管理者产生和持有的社会政治态度。它是较多群众关 基于URL分析、网页结构分析和模板匹配的网页信息抽取 于社会中各种现象、问题所表达的信念、态度、意见和情绪 和数据库存储的方案,其原理简单、切实可行。 等等表现的总和。网络舆情分析系统专注于网络舆情的分 2.预处理模块概述 析,通过对网络中一段时间内信息的收集,整理,统计并建 2.1预处理模块的功能 立模型进行分析,完成对网络舆情热点发现,敏感词监控, 预处理模块主要完成爬虫模块爬取的网页中有用信息 舆情发展预测的功能,从而帮助相关单位对网络舆情进行 的高效、准确的抽取和数据的简单处理、存储。其处理对象主 监管和控制,利用网络舆情辅助决策等。 要包括三类网页:新闻内容网页、论坛的帖子网页、Blog的 网络舆情分析系统一般由信息采集、信息处理和信息 内容网页。考虑的系统的效率以及信息的准确性,网页的主 分析三大部分组成。其中信息采集部分由网络爬虫模块组 要来源网站是一些规模较大,有一定影响力的网站,也可以 成,实现网页的爬取。信息处理部分由预处理模块、分词模 定制爬虫爬取网站的UIU规则。 块组成。预处理模块抽取爬虫所爬取网页中对分析有益的 2.2预处理模块的流程 信息,去除干扰信息,并将抽取信息存储。分词模块对长信 预处理模块的子模块划分及工作流程如图l所示: 息进行分词,并进行词性划分和词频统计。信息分析部分包 括信息聚类模块,热点发现模块,敏感词预警模块和基于数 学模型的舆情发展预测模块组成。 在网络舆情分析系统中,信息多来自于网页,而网页信 息的非结构化对于定位网页中的特定信息造成了困难,使 得基于数据库数据查询统计的舆情分析难以实现。预处理 模块通过对非结构化网页信息的智能抽取和结构化存储, 使利用数据库查询和统计进行舆情分析成为可能。 目前,学术界关于预处理中网页信息抽取、存储等技术 的研究已经取得了一些成果。流行的网页信息抽取技术包 Markov Mode)‘】 括:基于隐马尔科夫链理论的HMM(Hidden 模型,基于本体论(Ontology)信息

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档