Q_361005 ZWXX 002-2019舆情监控系统.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
舆情智能监控系统产品简介 舆情v2.0产品发布会 目录 CONTENTS 舆情简介 技术架构 算法简介 功能说明 舆情简介 Copyright 2014 TalkingData Ltd., All Rights Reserved 概念  舆情监控系统又被称作互联网舆情监控系统,是指通过相关的专业舆情软件按照一定的规则和方法 将互联网上繁杂的信息当中关注的舆情信息抓取出来,并通过分析过滤等方式加工处理最终呈现出与 需求相匹配的舆情信息。 应用场景举例 1、可实时监测微博,论坛,博客,新闻,搜索引擎中对企业的负面相关信息 【监控】 2、可对重点页面进行定时截屏监测及特别页面证据保存 【取证】 3、可追踪某个专题或某个作者的所有相关信息,关系图 【挖掘】 4 、可利用爬虫进行水贴灌水 【处置】 5、可导出制作含有图表的舆情日报周报 【报表】 6、可定义预警级别,并发送预警消息 【通知】 7、可了解商业价格走向 【商情】 。 。 。 技术架构 Copyright 2014 TalkingData Ltd., All Rights Reserved 网杰超算中心 • 数据层方面:HBASE、SOLR_CLOUD、 REDIS_CLOUD、MYSQL集群 • 处理层方面:STORM分布式流式计算、 SPARK分布式处理引擎、智能AI算法 • 采集层:ROS软路由、XPATH\JSOUP\ IK 解析器、封锁策略 • 中间层:KAFKA、DUBOO、REDIS_CLOUD 10.6 等 3.2 算法简介 Copyright 2014 TalkingData Ltd., All Rights Reserved  话题聚类 文本相似度算法——空间向量模型的余弦算法和TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某 个词或短语在一篇文章中出现的频率TF高,并且在其 他文章中很少出现,则认为此词或者短语具有很好的 类别区分能力,适合用来分类。TF词频(Term Frequency) 指的是某一个给定的词语在该文件中出现的次数。IDF反 文档频率(Inverse Document Frequency)的主要思想是:如 果包含词条的文档越少,IDF越大,则说明词条具有很好 的类别区分能力。  热度分析 利用阅读数、点赞数、转发数、评论数以及发布时间,综合加权公式进行计算, 并做归一化;  人名、关键词抽取 中科院的ictclas 中文分词算法对每篇文章的文本进行切词,而后做词性标注 :名词、人名、地名、新词、时间词、副动词、名动词、形容词等; 原理: 1、文本特征向量; 2、TF-IDF; 3、词频; 4、互信息; 5、期望交叉; 6、二次信息 7、文本证据权 . . .  文本倾向性分析 基于”语料库”训练集的倾向性机器学习算法  搜索引擎 1、基于lucene的倒排索引 技术 2、solr_cloud是对lucene的 进一步封装,实现分布式 全文检索服务  热词分析 根据关键词的抽取,对关键词进行 自动统计,词频越高就为越热词汇  事件分析 根据上面每个部分的功能抽取,整合出一份 用户所需要的事件定制报告  事件分析  事件分析 谢谢

文档评论(0)

10301556 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档