BBS热点话题发现与监控系统.pdf

中文摘要 摘要:互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用 的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的 看法。从一定角度来看,BBS是现实社会的镜像,因而可以采集BBS中的数据, 为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以 BBS实时数据为基础的。 本文在分析国内外BBS热点话题发现与监控现状和发展的基础上,从系统的 整体设计和实现过程入手,深入分析系统结构设计和系统处理流程等方面的问题。 本文的主要研究内容如下: (1)BBS数据采集:数据采集是整个热点话题发现与监控系统的基础,本文 利用传统网络爬虫的运行原理,并结合论坛的特征,提出基于论坛版块扩展的BBS 数据采集策略,实现对BBS论坛的高效采集。 (2)BBS数据预处理:采集所得的数据为非结构化数据,系统需要对其处理, 使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个 主要步骤。 (3)BBS热点话题发现:话题识别是热点话题发现的关键步骤,本文采用 改进,并给出实验结果及和分析。在话题识别的基础上,综合话题包含的主题贴 子数、参与讨论的Ⅲ数、回复数、浏览数等信息,对话题进行热度评分,筛选出 论坛中的热点话题。 对BBS热点话题的监控。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档