- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“ ” “ ” 决策支持系统未来发展探讨 ——基于大数据的舆情分析 内容源自《大数据环境下舆情分析与决策支持研究文献综述》一文,作者:夏火松、甄化春。 ?引 言 2012,奥巴马政府,“大数据研究与开发计划” 2013,国务院副总理汪洋以流感病毒舆情分析为例谈大数据 郭美美事件 切糕王子 航母Style …… 大数据时代的舆情研究热潮 相对于传统的社会舆情分析,大数据时代的社会舆情分析更集中于对大量网络数据的搜集、存储、清洗并结合文本挖掘技术从大量低价值密度的数据中获取相关的舆情研究信息。 如何浓缩海量信息,抵抗“数据爆炸”,从而实现舆情信息增值并提高关联数据的趋势研判能力是大数据时代舆情分析的重大挑战。 发展概况 关键技术 分层模型 不足与展望 本文舆情分析与决策支持研究结构: ?发展概况 舆情分析 传统社会舆情分析更趋向于研究热点事件、政策及新颁布的法律条文对于社会舆情的影响之间的关系。 经历了早期简单粗放的研究阶段和当前海量网络舆情研究的阶段。Twitter/Facebook/微博/人人等社交网络平台的兴起掀起了网络舆情研究的热潮。 大数据舆情分析是舆情研究的一个前沿课题,其 利用数据挖掘和大数据处理相关技术从海量数据中提取有用的知识用于决策支持。 ?发展概况 决策支持 决策支持系统 传统舆情分析 网络舆情分析 大数据舆情分析 模型库、模块调用分析函数、可视化展示 适用调查问卷等量小结构单一的数据 尚未形成完整体系 继承网络舆情分析技术、结合大数据特性 当前成果众多 Twelvefold、Buzz Metrics、军犬等 ?发展概况 大数据时代网络舆情分析的一般研究框架→ 1 4 3 2 ?关键技术 信息采集 热点发现 评估跟踪 分析处理 信息采集是网络舆情分析的第一步,其包含数据的爬取、数据的存储和清洗等相关技术。 信息采集 数据爬取 数据清洗 数据存储 网络爬虫 网站API接口 Heritrix/Nutch/Labin Twitter/新浪微博 传统数据 大数据 SQLServer/Oracle/Sybase 结构化→分布式并行 半结构→NoSQL 非结构→分布式文件存储 数据的清洗是对采集的数据进行整理,删除无效网页数据和重复的文本数据。 ?关键技术 信息采集 热点发现 评估跟踪 分析处理 网络舆情热点发现包括目标话题的识别与跟踪(TDT),其强调对新信息的发现和特定热点的关注,当前主要技术是根据文本聚类/分类的算法从大量Web网页中发现网络舆情热点。 相关算法 Single-pass K-means 支持向量机(SVM) SOM神经网络 →最常用 →动态聚类和速度上表现优异 →时效性和精度上存在不足 →基于硬划分的无监督聚类算法 →良好的伸缩性和很高的效率 →需事先给定分类簇数K;结果受初始值、噪声、孤立点影响较大 →基于类比学习的非参数分类 →统计模式识别效果好/较高的分类准确率 →训练样本过多时计算速度减缓 →模拟人脑对信号处理特点的无监督学习方法 →难点是如何设置输出层的节点个数 →有可能将不同热点事件混淆 KNN最邻近 →解决同一时间内多热点事件的识别和报道分类 →在处理小样本时有出色的学习能力和推广能力 →训练速度慢;算法相对复杂 ?关键技术 信息采集 热点发现 评估跟踪 分析处理 热点评估 词频统计 情感分类 对网络调查数据、网络文章关键词和浏览统计数据等信息进行分析并作出评估。 基于情感分类的热点评估在舆情评估领域使用的较为普遍。两类关键技术:基于概率论和信息理论的分类算法。 热点评估是根据热点事件中公众的情感和行为反应对舆情进行等级评估并设立相应的预警阈值。词频统计、情感分类是网络舆情评估的两个主要手段。热点跟踪方面,主要通过对热点舆情的快速分类,实现跟踪目的。 难以处理海量非结构化数据! 热点跟踪 KNN最邻近 NBC朴素贝叶斯 准确性较高 处理大批数据时速度较慢 分类效率稳定 误差率收到一定影响 ?关键技术 信息采集 热点发现 评估跟踪 分析处理 分析处理是大数据时代网络舆情监控中决策层的范畴,它涵盖了舆情事件的早期预警、舆情的引导、网络民意的反馈、沟通和舆情的总结评估机制。 阈值设置 舆情预警 舆情引导 基于分类或聚类思想,根据关注度、传播速度、影响程度将舆情信息分为绿、黄、橙、红四种强弱等级。 常用分类学习方法: 神经网络 贝叶斯分类器 最邻近算法 SVM Feng Cao 等从政府、企业以及意见领袖三方探讨了网络舆情引导的策略。 ?分层模型 分析处理是大数据时
原创力文档


文档评论(0)