BBS论文:BBS热点话题发现与监控系统.docVIP

BBS论文:BBS热点话题发现与监控系统.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BBS论文:BBS热点话题发现与监控系统 【中文摘要】互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实社会的镜像,因而可以采集BBS中的数据,为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以BBS实时数据为基础的。本文在分析国内外BBS热点话题发现与监控现状和发展的基础上,从系统的整体设计和实现过程入手,深入分析系统结构设计和系统处理流程等方面的问题。本文的主要研究内容如下:(1)BBS数据采集:数据采集是整个热点话题发现与监控系统的基础,本文利用传统网络爬虫的运行原理,并结合论坛的特征,提出基于论坛版块扩展的BBS数据采集策略,实现对BBS论坛的高效采集。(2)BBS数据预处理:采集所得的数据为非结构化数据,系统需要对其处理,使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个主要步骤。(3)BBS热点话题发现:话题识别是热点话题发现的关键步骤,本文采用Single-Pass聚类算法进行话题识别,在实际应用时针对原算法存在的缺陷做了相应改进,并给出实验结果... 【英文摘要】The rapid development of Internet is a helpful tool for popularizing BBS. At present, BBS has become a popular communication tool. Through the BBS, user could lanch a new topic or reply to existing topics to express ideas of topics. To some extent, BBS is a mirror of real society. The real-time data on BBS can be collected which provides certain data base for the research of the BBS hot topic detection. In this paper, hot topic detection and monitoring function are based on real-time data of BBS.Based o... 【关键词】BBS Web文本挖掘 爬虫 聚类 热点话题发现 话题监控 【英文关键词】Web rawler BBS Web text mining clustering algorithms hot topic detection hot topic monitoring 【目录】BBS热点话题发现与监控系统 致谢 5-6 中文摘要 6-7 ABSTRACT 7 1 绪论 11-16 1.1 研究背景和意义 11-12 1.1.1 课题研究的背景 11-12 1.1.2 课题研究的意义 12 1.2 国内外研究现状 12-13 1.3 论文的主要工作及组织结构 13-16 2 相关技术介绍 16-33 2.1 Web文本挖掘技术 16-21 2.1.1 Web文本挖掘过程 16-17 2.1.2 文本挖掘关键技术 17-21 2.2 网络数据采集技术介绍 21-28 2.2.1 网络爬虫技术 21-25 2.2.2 页面信息抽取技术 25-26 2.2.3 URL语法解析及分类算法 26-28 2.3 热点话题发现技术 28-31 2.3.1 话题检测与跟踪相关概念 28-29 2.3.2 热点话题发现相关算法 29-31 2.4 系统开发工具介绍 31-32 2.4.1 HtmlParse介绍 31 2.4.2 正则表达式 31-32 2.4.3 ICTCLAS汉语分词系统 32 2.5 本章小结 32-33 3 BBS热点话题发现与监控系统设计 33-38 3.1 系统总体设计 33-34 3.1.1 系统功能介绍 33 3.1.2 系统总体设计 33-34 3.2 系统模块划分 34-37 3.2.1 信息采集模块 34-35 3.2.2 数据预处理模块 35-36 3.2.3 热点话题发现模块 36 3.2.4 热点话题监控模块 36-37 3.3 本章小结 37-38 4 BBS数据采集及预处理的实现 38-55 4.1 BBS数据爬取 38-41 4.1.1 BBS逻辑结构分析 38-39 4.1.2 BBS信息采集策略 39-40 4.1.3 版面链接URL的识别 40-41 4.1.4 重复链接的处理 41 4.2 BBS信息预处理 41-50 4.2.1 常见论坛帖子元

文档评论(0)

80092355km + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档