- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CN107193867-CN201710228064-基于大数据的热点话题分析方法
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 107193867 A
(43)申请公布日
2017.09.22
(21)申请号 201710228064.0
(22)申请日 2017.04.07
(71)申请人 广东精点数据科技股份有限公司
地址 510630 广东省广州市天河北路906高
科大厦A-701
(72)发明人 陈乐焱 许飞月 陶波
(74)专利代理机构 重庆强大凯创专利代理事务
所(普通合伙) 50217
代理人 隋金艳 陈家辉
(51)Int.Cl.
G06F 17/30(2006.01)
G06K 9/62(2006.01)
权利要求书1页 说明书4页 附图2页
(54)发明名称
基于大数据的热点话题分析方法
(57)摘要
本申请公开了基于大数据的热点话题分析
方法,包括以下步骤:步骤一:热点话题数据收
集;步骤二:热点话题数据预处理;利用Canopy算
法计算得到各个热点话题数据的关键项的初始
中心个数K;步骤四:利用K-means算法对数据进
行聚类分析,最终聚类结果所得到的类即确定为
话题;步骤五:对步骤四中分好的各类话题进行
话题热度分析;话题热度的主要参考指标为报道
频率、报道持续天数、搜索量、点击量、评论量以
及点赞量。本申请能够快速进行话题热度分析。
A
7
6
8
3
9
1
7
0
1
N
C
CN 107193867 A 权 利 要 求 书 1/1页
1.基于大数据的热点话题分析方法,其特征在于:包括以下步骤:
步骤一:热点话题数据收集;
步骤二:热点话题数据预处理:对步骤一所收集的数据进行干扰信息排出,提取文本数
据中的关键项;每一个关键项对应一个用来表示在文档中作用程度的质量值Q:
其中,N表示文档的总数,f 表示文档的关键项在文档n中出现的次数,l表示关键内容的
n
长度;
设定一个标准值Q ,当Q>Q 时,该关键项保留,当Q<Q时,该关键项删除;
s s s
步骤三:利用Canopy算法计算得到各个热点话题数据的关键项的初始中心个数K;
步骤四:利用K-means算法对数据进行聚类分析,最终聚类结果所得到的类即确定为话
题;
步骤五:对步骤四中分好的各类话题进行话题热度分析;话题热度的主要参考指标为
报道频率、报道持续天数、搜索量、点击量、评论量以及点赞量;话题热度计算公式可以表示
为:
H=a ·H +a ·H +a ·H +a ·H +a ·H +a ·H
1 1 2 2 3 3 4 4 5 5 6 6
H表示话题的热度,H 代表话题的报道频率,H 代表话题的报道天数,H 代表话题的搜索
1 2 3
量,H 代表话题的点击量,H 代表话题的评论量,H 则代表话题的点赞数,a ~a 则分别代表
4 5 6 1 6
各个参考指标在话题热度分析中所占的比重系数。
2.根据权利要求1所述的基于大数据的热点话题分析方法,其特征在于:步骤一中对热
点话题数据的抽取是基于分布式云计算平台通过网络爬虫来实现的,对收集的数
您可能关注的文档
- CN107208951-CN201580072713-制冷剂量异常检测装置以及制冷装置.pdf
- CN107208130-CN201480082846-对低水平放射线反应的DNA修复相关基因的检测方法.pdf
- CN107208029-CN201580055029-具有嘌呤摄取能力的乳酸菌及其用途.pdf
- CN107205724-CN201480083328-成像方法以及进行剪切波弹性成像的装置.pdf
- CN107205632-CN201680007457-冷却装置和内窥镜用光源装置.pdf
- CN107205245-CN201710452773-热点区域自动识别方法和装置.pdf
- CN107205240-CN201710426177-无线讯号稳定度的判断方法及系统.pdf
- CN107205205-CN201610153984-麦克风评估装置及评估方法.pdf
- CN107205142-CN201710525981-一种图像色彩偏移的方法、装置及显示设备.pdf
- CN107204894-CN201710353625-网络业务质量的监控方法及装置.pdf
- CN107193706-CN201710210020-一种确定目标机房信息技术IT设备的方法和装置.pdf
- CN107193696-CN201710305000-移动设备性能评测方法及装置.pdf
- CN107193655-CN201710347165-一种基于效用函数的面向大数据处理的公平资源调度方法.pdf
- CN107193642-CN201610144694-任务数据压缩切换方法、宜压缩程度评价方法及相关装置.pdf
- CN107193515-CN201710229693-动画显示流畅度的监控方法、装置及其设备.pdf
- CN107193256-CN201710571554-少自由度空间并联机构拓扑性能指标分析方法及装置.pdf
- CN107193053-CN201710566937-山前推覆带火山岩区逆断层分单元垂向输导能力评价方法.pdf
- CN107192998-CN201710219784-一种基于协方差指标函数的自适应分布式航迹数据融合方法.pdf
- CN107192954-CN201710302417-一种锂离子电池性能在线诊断方法.pdf
- CN107192890-CN201710529667-一种射频脉冲抖动的测量方法.pdf
文档评论(0)