- 202
- 0
- 约1.17万字
- 约 23页
- 2016-12-19 发布于安徽
- 举报
word精品文档,支持编辑复制,内部资料,值得参考!
4微博热点话题检测方法研究根据传统的话题检测算法基本流程,微博的热点话题检测方法大致如下:首先采集数据,然后对采集的数据进行文本预处理,包括文本分词,去停用词等步骤;再次进行文本建模,包括文本向量化,特征提取等步骤;最后对文本进行聚类,产生热点话题。具体过程如下图所示:图 7微博话题检测算法流程图4.1微博数据采集方法研究本文要研究的是微博中的热门话题,首先要解决的问题就是如何从新浪微博的平台中收集到我们需要的信息。因此,这一章研究的问题是如何进行微博数据的采集。本文主要研究两种采集方法:微博开放平台以及网络爬虫获取数据,由于开放平台获取的数据并不全面,因此,文本选取的网络爬虫获取数据。4.1.1利用新浪微博开放API获取数据利用新浪微博开放平台采集数据之前需要先在开放平台申请注册账号,我们可以使用新浪微博的账号可以也可重新进行注册。其次,选择其中的应用开发者选项,并根据提示填写相应的基本资料,这是需要记住你申请的App Key和App Secret,另外还要在高级设置中填写入返回地址,以便在开发的配置文件中进行记入。最后,获得应用的 Access Token并调用新浪微博的开放API进行操作。下图,是新浪微博API的界面,我们可以看到,新浪的开放平台有22个开发的接口,我们可以通过这些接口获得我们想要的数据,比如通过粉丝服务项,我们可以接收用户私信、关注、@等消息、向用户回复私信
您可能关注的文档
最近下载
- DB32/T+5383-2026+12345政务服务便民热线服务质量评价指标体系.docx VIP
- 七下道法11.3《严于律己》2025-2026学年七年级道德与法治上册议题式精品课件.pptx VIP
- 焊膏知识培训课件.ppt VIP
- 第30课 中国特色社会主义新时代和全面建成小康社会(一)(课件)-【中职专用】《中国历史》.pptx VIP
- 2026年老人考证三力测试题库200道及一套参考答案.docx VIP
- 痰标本采集操作流程及评分标准.doc VIP
- 巨人通力GPS35S(GCE)小机房电气原理图纸-YH_51096299D01X-2023-9.pdf
- 电力管道施工方案.pdf VIP
- 汽车尾灯结构及汽车.pdf VIP
- (高清版)B-T 42061-2022 医疗器械 质量管理体系 用于法规的要求.pdf VIP
原创力文档

文档评论(0)