构建社会舆情总体判断的大数据方法——以百度海量搜索数据的处理为例.pdfVIP

  • 6
  • 0
  • 约3.27千字
  • 约 3页
  • 2017-09-05 发布于广西
  • 举报

构建社会舆情总体判断的大数据方法——以百度海量搜索数据的处理为例.pdf

专栏 霹黼褫 构建社会舆情 总体判断的大数据方法 — — 以百度海量搜索数据的处理为例 喻 国明 摘【 要】大数据时代 已经到来,使用大数据时代的数据挖掘技术手段,可以帮助我们从数据库的 大量数据 中揭示 出隐含的、前所未有的并具有潜在价值的信息的价值聚合、提炼的过程。中国人 民大 学舆论研 究所基于对百度搜索词数据所进行 的、数据价值挖掘 的方法 .构建 了反映社会舆情基本面状 况的百度舆情指数 。 【关键词】大数据;数据挖掘;百度搜索;网络舆情分析 世界已经进入了大数据时代 。所 务或深刻洞见的数据及处理方法 。 键词所代表的事件的关注程度。百度 谓 “大数据”,直观理解就是信息和数 大数据分析的主要技术手段是采 作为国内第一大搜索引擎运营商,从 据量的规模十分巨大,无法用常规的 用数据挖掘 (DataMining)。数据挖掘 后台数据库中可以提取出每一个搜索 信息技术手段和软硬件工具进行感 又称数据库中的知识发现 ,即指从数 词的对应搜索量 。但每天高达40亿次 知、获取、管理和处理的数据集合 。大 据库的大量数据中揭示出隐含的、前 的海量搜索数据不但数量极为巨大 , 数据时代的生成背景是:数据获取技 所未有的并具有潜在价值的信息的价 而且所指对象也极为繁杂 。大数据处 术的革命性进步、传感器等自动采集 值聚合、提炼的过程。中国人民大学舆 理的一个重要逻辑就是将价值含量较 的数据 、Web2.0等 用户 生成数 据 论研究所所提出的、反映社会舆情基 低的海量数据进行价值凝练和萃取 , (UGC)以及移动设备生成的数据(位 本面状况的百度舆情指数,正是基于 在不失代表性前提下进行数据简化处 置、移动和行为信息等)。大数据具有 对百度搜索词数据所进行的、数据价 理。这对于舆情分析而言不仅是可行 规模性(volume)、多样性(variety)、高 值挖掘的方法而构建起来的。 的,而且是必要的。 速性(velocity)和有价值 (value)等特 社会舆情分析所关注的是社会基 点。大数据分析就是以诸种创新的方 一 、 选取TOP1000:截取最具舆情 本面的描述和分析 ,对于不涉及基本 式通过对海量数据进行分析、梳理和 代表性的有限数据集 面的非权重的分散数据的处理不但极 加工,获得具有巨大价值的产品和服 搜索量的高低反映了民众对该关 大增加了数据处理的成本和难度 ,还 67 中国社会暖度指数集中体现了一 个个社会事件在人们心 目中所引起的 关于社会环境的主观感受及睛感体验: 是 “有温度的”,还是 “冷冰冰的”。这一 指数的高低是社会公众感知整个社会 环境友善及亲和程度的 “温度计”。 从数据分析可以看出,2{)12年中国 社会暖度有所回升。由于党的十八大以 后一些新的政治举措使得整体社会感 知暖度有所上升,达到了51.7分 。另外, 2012年全年 ,像2011年发生的 “小悦悦 事件”等涉及全国范围的社会寒心事件 数量有所下降,在一定程度上造成了社 会总体暖度有所上升的感受。 2.社会幸福感 :相较于2011年有所 提振 “幸福 ”是2012年的年度热词 ,但 幸福是一个相对来说比较难以界定的 情感词。本研究将网民搜索的热词与 社会语义分析的相关词进行对位和赋 的是社会紧张度或日社会管理的压力 会民生的改善事关整个社会的稳定和 值 ,集中显示包含着幸福评

文档评论(0)

1亿VIP精品文档

相关文档