- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录
引言
12
系统的结构
22
网页信息采集及数据预处理模块设计说明
33
候选话题发现模块设计说明
46
话题能量计算模块设计说明
59
热点话题排序模块设计说明
611
详细设计说明书
1引言
1.1编写目的
a.定义系统总体开发过程,作为开发人员项目开发的基础;
b.撰写此文档的目的在于让开发人员明确开发过程,各部分接口及数据传递过程;
c.作为软件总体测试和项目验收的依据;
1.2背景
a.待开发软件系统的名称:BBS热点话题发现系统
b.本项目的用户:网站访问者
1.3定义
a.BBS话题:BBS话题是由一个或者多个讨论类似内容的BBS主题集合
1.4参考资料
a.项目需求分析报告
2系统的结构
如图2-1为BBS热点话题发现系统的框架图:
Web数据库
网页信息采集及数据预处理热点话题发现及热度排序
文本特对主题
网页网页分词,热点话
征提取进行增话题能
数据文本去除停题排序
及文本量单边量计算
采集解析用词及显示
表示聚类
2-1BBS热点话题发现系统的框架
3网页信息采集及数据预处理模块设计说明
3.1程序描述
网页信息采集及数据预处理子系统主要分为:网页数据采集、网页文本解析、网页文本
分词及去除停用词四部分。
3.2功能
如下3-1为网页信息采集及数据预处理子系统的IPO图:
1.获取web页面数据;1.将帖子内容存储到post
用户选择BBS站
2.web文本解析;表中;
点,系统获取
3.文本分词;2.将过滤后的分词结果存
初始URL
4.分词结果过滤入到word表中
输入处理输出
3-1网页信息采集及数据预处理子系统的IPO
3.3性能
本模块采用多线程的方式,同时对数据进行解析、分词、过滤的操作,大大提高了运行
速度,使得系统可以快速的处理大量数据;
3.4流程逻辑
开始
输入初始URL及
结束点
文档评论(0)