- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络舆情监测引导系统研究
摘 要:网络舆情监测与引导是个复杂的技术和管理过程,必须充分利用web数据挖掘技术的优势,建立完善网络舆情监测引导系统,进一步提升信息化、自动化和智能化,自觉地把互联网的优势转化为推进社会治理的现实动力和强大合力。
关键词:网络舆情;监测引导;web数据挖掘
一、时代背景
互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地,网上热点层出不穷,网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态,国内关于舆情的研究起步较晚,目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工,以往“剪报”式低价值粗加工的信息服务,虽可按主题范围搜集,但提供的结果仅局限于单一的信息内容,传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。
二、网络舆情监测引导的技术支撑
在浩瀚的网络中,政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而web数据挖掘能快速、准确的获得有价值的网络信息,利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从web获取并分析相关舆情,达到监测、辅助决策和引导的目的,为网络舆情预警提供了极大的帮助。
(一)web数据挖掘
web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出新的理论与方法,演变成网络数据挖掘技术。web数据挖掘是指对目标样本进行分析提取特征,以此为依据从web文档和web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。
根据挖掘对象的不同,可将web数据挖掘技术分为三大类[2]:web内容挖掘、web结构挖掘和web使用挖掘。web内容挖掘是指从web上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,web内容挖掘分为文本挖掘和多媒体挖掘。web结构挖掘的目标是web文档的链接结构,目的在于揭示蕴含于文档结构中的信息,主要方法是通过对web站点的结构进行分析、变形和归纳,将web页面进行分类,以利于信息的搜索。结构挖掘的重点在于链接信息。web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,利用这种方法,可以获知web使用者的行为偏好,从而预测其行为。
(二)web挖掘过程
web数据挖掘依然遵循数据挖掘的研究思路,挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析(如图1所示)[3]。
1.数据收集。网络信息的收集是网络舆情监测的源头,其广度和深度决定了监测效果。对于明确主题的舆情信息采集,可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整,所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息,可将网络空间按域名、ip地址或国别域名划分为独立子空间详细搜索;或以信息类型为划分,如html格式、xml格式、ftp文件、word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示,以便短时间内检索到精确信息。
2.数据预处理。因原始web访问数据的文件格式是半结构化的,包含不完整、冗余、错误的数据,需进行提取、分解、合并,转化为适合挖掘的格式,保存到关系型数据库表或数据仓库中,等待进一步处理。数据预处理可改进数据质量,提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理,如格式转换、数据清理、数据统计,对于新闻评论,需过滤无关信息,保存新闻标题、出处、发布时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛,需记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。
3.模式发现。利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访
您可能关注的文档
- 水中本底成分对催化臭氧氧化降解富里酸影响.pdf
- 水中隐孢子虫检测与活性鉴定.pdf
- 水资源—多目标粒子群算法在梯级水库联合防洪调度中应用研究.pdf
- 水资源价值定量探讨.pdf
- 水资源转移利用利益补偿测算:模型构建与应用.pdf
- 顺酐装置溶剂吸收塔方案模拟及分析.pdf
- 瞬时无功功率补偿和全频谱滤波.pdf
- 瞬态热线法导热系数测量数值模拟.pdf
- 说说诗歌中意象和意境.doc
- 丝瓜瓤固定简青霉吸附废水中Pb_2_和Cu_2_机理.pdf
- 师缘主题课件最新完整版本.pptx
- 基于偏好MOEA_D算法的气发动机多目标优化标定研究.pdf
- 师范技能课件比赛一等奖最新完整版本.pptx
- 师范生初中美术说课课件最新完整版本.pptx
- 师范技能课件图片素材库最新完整版本.pptx
- Unit 2 Making a Difference Understanding ideas The Well that changed the world 教学设计-高中英语外研版(2019)必修第三册.docx
- 师范生技能大赛PPT课件语文最新完整版本.pptx
- 基于扭矩的双燃料发动机控制策略研究.pdf
- 1.2.1 等差数列的概念及其通项公式(教学设计)高二数学(北师大版2019选择性必修第二册).docx
- 师范文化课件最新完整版本.pptx
文档评论(0)