技术报告-基于LDA模型的高校论坛热点提取系统.pptVIP

  • 2
  • 0
  • 约5.93千字
  • 约 10页
  • 2017-05-07 发布于天津
  • 举报

技术报告-基于LDA模型的高校论坛热点提取系统.ppt

技术报告-基于LDA模型的高校论坛热点提取系统.ppt

* * 论坛热点提取的流程分为数据抓取,文本预处理以及主题提取三个模块。数据抓取模块从网络上批量抓取数据形成语料库。随后通过文本预处理模块对抓取的数据进行数据清洗获得符合标准的文本语料。之后通过论坛文本主题提取模块从文本语料中提取主题,输出结果。 * * 数据抓取模块: 北邮人(BYR)论坛成立于2003年9月26日。经过几年的发展,已经成为北邮校内最大的信息交流平台,在北邮及周边学校中拥有较为固定的使用人群,在高校里十分火爆,人气颇高。 由于在BYR论坛中,关于时事舆情的话题讨论通常在论坛的谈天说地版块出现,因此本研究通过论坛爬虫从北邮人论坛的谈天说地版块抓取文档共计30000余篇,文档包括发帖正文以及每个帖子中的回复内容。 文本预处理: 从爬虫中通过数据清洗获得的文本数据通常为完整的文档内容,因此为了提供LDA模型机器学习所须的语料格式,须对原始文本数据进行中文分词,以及关键词提取。 本文使用python的Jieba分词模块来对中文语料进行预处理,最终挑选谈天说地版块从2015年12月到2016年3月的所有文本内容以月份为单位作为样例进行分析及处理。 在本文中对于从论坛抓取的语料, 将同一帖子中正文主题单独作为一个文档,评论部分每五条评论合并为同一个文档。按照上述规则对文本进行划分从而缩小热门帖与冷门帖之间的篇幅差异。热门帖因为回帖量大会分为更多的文档

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档