网络论坛爬虫设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络论坛爬虫设计

网络论坛爬虫设计   摘要:该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。   关键词:论坛爬虫;网络论坛;信息聚合   中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)03-0570-03   网络论坛作为一种信息交流的平台蕴含着大量由用户发表的主题信息,目前互联网上出现了越来越多的具有较高信息聚合度的网络论坛,它们分散在互联网的各个角落,形成了新的“信息孤岛”。用户往往需要访问多个网络论坛来获取这些分散的信息。因此,有必要整合这些“信息孤岛”中的信息,为用户提供统一的访问接口来获取网络论坛中的信息。   该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。    1网络论坛分析   为了整合多个论坛中的信息就需要对多个论坛的信息进行分析并抽象出共同的特征。目前,绝大数论坛都是由板块和帖子构成,即若干主题相关的帖子聚合形成板块,若干板块聚合构成论坛。每个论坛中的帖子地址和板块地址都具有相同的URL地址格式。帖子的URL地址显示了该帖子的内容;而板块的URL地址显示的是帖子标题列表,由于一个板块具有多个帖子,所以往往要划分为多个页面来显示,所以这里的板块URL地址是第一页,通过翻页地址可以链接到该板块的下一页。以“采购经理人论坛”网站为例,帖子的URL地址格式如下:http://bbs.省略/forum.php?mod=viewthreadtid={articleId}extra=page%3D{nextPage? Id}。其中{articleId}是帖子的数字编号,{nextPageId}是翻页地址的数字编号,即当前板块的页面编号。板块的URL地址的格式如下:http://bbs.省略/forum.php?mod=forumdisplayfid={boardId}。其中{boardId}是板块的数字编号。板块翻页URL地址的格式如下:   http://bbs.省略/forum.php?mod=forumdisplayfid={boardId}page={nextPageId},这里的{boardId}是板块的数字编号而,{nextPageId}是板块的页面编号。   因此,本文认为一个论坛可以通过论坛名称、论坛首页地址、板块地址格式、帖子地址格式、板块翻页地址格式等来描述,从论坛首页地址出发可以找出所有与板块地址格式相匹配的板块地址,再从板块地址出发就可以找到所有与帖子地址格式相匹配的帖子地址,最后由帖子地址即可以得到帖子所包含的信息。    2论坛爬虫设计   2.1论坛爬虫分析   论坛爬虫的主要任务是从某个论坛的首页地址出发下载该论坛的所有帖子。它涉及到的三个实体类分别为:论坛实体、板块实体和帖子实体,与之对应的JavaBean对象分别为:SiteBean、BoardBean、ArticleBean,具体分析如下:   SiteBean是对论坛基本信息的封装,其属性包括论坛名称(SiteName)、论坛地址(SiteUrl)、板块地址格式(boardUrl)、帖子地址格式(articleUrl)、翻页地址格式(nextPageUrl)。在数据库中使用SiteInfo数据表来存放SiteBean实体类。   BoardBean是对板块信息的封装,其属性包含了板块编号(boardId)、板块名称(boardTitle)、板块地址(boardUrl)、帖子列表(arti? cleList)、论坛地址(SiteUrl)。这里的articleList是一个数据类型为LinkedList的集合。在数据库中使用BoardInfo数据表来存放BoardBean实体类。   ArticleBean是对帖子信息的封装,其属性包括帖子地址(articleUrl)、帖子标题(articleTitle)、帖子编号(articleId)、发表时间(post? Date)、保存时间(saveDate)、帖子标识(visitedFlag)、所属板块(boardUrl)、所属论坛(SiteUrl)。其中visitedFlag字段表示帖子的处理状态,当visitedFlag=0时表示当前的帖子是新帖子但还未被保存;当visitedFlag==1是表示帖子已经被保存但是还没有被转化为XML文档;当visitedFlag==2时表示该帖子已经加入到索引中处理完毕;当visitedFlag==-1时,表示该帖子的处理失

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档