基于数据挖掘的网络舆情预警决策支持系统.docVIP

基于数据挖掘的网络舆情预警决策支持系统.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的网络舆情预警决策支持系统 中图分类号:TU文献标识码:A文章编号: 1008-925X(2011)09-0-02 摘要:本文以基于数据挖掘的决策支持系统方法 整合网络舆情信息,建立网络舆情信息仓库,对非结 构化的模糊复杂的信息,运用数据挖掘中文本挖掘技 术有效分析网络热点事件的舆情,及时发现重大突发 事件,减少危机损失,提高政府管理和监控舆情危机 的能力。 关键词:网络舆情数据挖掘决策支持系统 1、引言 近几年,随着Web2.0的兴起与普及,互联网已 成为一个开放的、个性化的社会环境形态,对社会稳 定和国家安全的维护带来了严峻挑战。但是现在我们 政府情报机构网络安全管理和监控能力比较薄弱,难 以适应复杂的环境。因此,建立基于数据挖掘的网络 舆情预警决策支持系统,对非结构化的模糊复杂的信 息,运用文本挖掘技术有效分析网络舆情事件,及时 发现重大突发事件,减少危机损失,提高政府管理和 监控能力势在必行。 2、 基于数据挖掘的决策支持系统 决策支持系统(DSS [1]是利用大量信息,数据结合 众多模型,通过人机交互,辅助各级决策者实现科学 决策的系统。它是融计算机技术、信息、技术、人工 智能、管理科学、决策科学等学科和技术于一体的技 术继承系统,包括数据仓库和数据挖掘分析系统,由 以下三个主体[2]组成: 模型库系统和数据库系统结合,作为该系统 的基础,为决策问题进行模型计算和定量分析,提供 辅助决策信息。 知识库系统和数据挖掘的结合,从数据库和 数据仓库中挖掘知识放入专家系统的知识库中,通过 知识推理定性分析,辅助决策。 数据仓库和OLAP,从数据仓库中提取综合 数据和信息来反映了其内在本质。 3、 基于数据挖掘的网络舆情预警决策支持系统的 定位 从网络舆情预警决策支持系统的功能和实现方式 对其定义:基于决策支持系统技术,将联机分析处理、 数据挖掘模型(文本挖掘模型)、数据仓库、知识库、 方法库等相结合,应用于情报机构的网络舆情预警中 的人机结合系统。 3.1数据仓库 数据仓库[3]的设计要满足决策支持系统的要求, 即数据要具备概括性、抽象性、统一性三个特点。所 以图1中数据仓库和部门数据库加上一个虚拟层,实 现数据挖掘的数据清洗,为数据仓库提取有用数据。 3.2数据挖掘方法 数据挖掘[4],简单点说,就是从大量数据中寻找 规律的技术,通过处理海量的、不完全的、随机的、 结构复杂的数据选择有用数据,建立知识模型。网络 舆情预警决策支持系统运用数据挖掘中文本挖掘技术, 包括自动分类技术、自动关联技术、观点挖掘技术、 自动分词技术、结构化抽取技术以及自动摘要、关键 词技术等。 图1决策支持结构系统 4、基于数据挖掘的网络舆情预警决策支持系统的 构建 基于数据挖掘的决策支持系统采集网络中的新闻 网页、论坛、博客、新闻评论,贴吧等网络资源,发 现突发性热点事件,进行热点跟踪定位和实时舆情预 警,帮助政府及时掌握舆情动向,准确捕捉预警信息, 对有较大影响的重要事件快速发现、快速处理,为政 府决策提供信息依据[5]。 4.1数据准备 网络舆情预警需要多样化的信息,在整理信息的 时候,需要做到全面、准确、及时。本系统涉及的信 息有: 文本信息:新闻、博客、产品评论、论坛帖子等 文本信息,包括主题、关键词、时间、URL等。 词汇信息:包括现在词典中的字或词和现在网络 用语的语义、适用的语境和是否带有情感等。 图像信息:主要是新闻、博客、产品评论、论坛 帖子等上发布的图片,包括主题、内容、时间、URL、 浏览数量等。 视频音频信息:主要是新闻、博客、产品评论、 论坛帖子等上发布的视频音频,包括主题、内容、时 间、、URL、浏览数量等。 这些来自互联网的大量信息,通过收集、整理、 存储、预处理在数据库中作为原始数据,这些数据是 离散的、模糊的。 4.2系统功能模块 根据网络舆情预警的规划,如舆情分类、情感分 类与趋势预测、舆情检索以及统计分析等,本系统建 立了舆情信息采集管理系统、舆情分类管理系统[6]、 舆情来源管理系统、舆情情感分类管理系统和用户管 理系统。 舆情分类管理系统:舆情分类即对海量信息的 自动(文本语义分析)分类。通过关键字样本、文件样 本、自定义等把原始信息分类,形成分类别(危害国 家安全、危害社会治安、扰乱社会秩序等)的分类库, 分类管理可以对分类的类别数据进行增加、删除、修 改等操作。 舆情信息采集管理系统:舆情信息采集管理系 统对文本信息、图像信息、视频音频信息的来源,如 新闻、博客、产品评论、论坛帖子、网站及其网站的 权威性进行分析统计。 舆情来源管理系统:舆情来源管理部门对文本 信息、图像信息、视频音频信息的来源,如新闻、博 客、产品评论、论坛帖子、网站及其网站的权威性进 行分析统计。 舆情情感分类管理系统

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档