- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索研究论文聚类系数,小世界,交通,网络搜索.doc
搜索研究论文-聚类系数,小世界,交通,
网络搜索
聚类系数,小世界,交通,网络搜索
1网络论坛分析
为了整合多个论坛中的信息就需要对多个论坛的信息 进行分析并抽象出共同的特征。目前,绝大数论坛都是由 板块和帖子构成,即若干主题相关的帖子聚合形成板块, 若干板块聚合构成论坛。每个论坛中的帖子地址和板块地 址都具有相同的URL地址格式。帖子的URL地址显示了该 帖子的内容;而板块的URL地址显示的是帖子标题列表, 由于一个板块具有多个帖子,所以往往要划分为多个页面 来显示,所以这里的板块URL地址是第一页,通过翻页地 址可以链接到该板块的下一页。以“采购经理人论坛”网 站为例,帖子的URL地址格式如下:/?mod=viewt hreadtid={ar ticlEid} extr a=page%3D{ne xtPage?Id}。其 中{articleld}是帖子的数字编号,{ne xtPageld}是翻页地 址的数字编号,即当前板块的页面编号。板块的UR L地址 的格式如下:/?m od=forumdisp layfid={boar did}。其中 {boar did}是板块的数字编号。板块翻页URL地址的格式如 下:
/?mod= forumdisplay fid={boardld }page={nextP ageld},这里的{b oardld}是板块的数字编号而,{nextPa geld}是板块的页面编号。
因此,本文认为一个论坛可以通过论坛名称、论坛首 页地址、板块地址格式、帖子地址格式、板块翻页地址格 式等来描述,从论坛首页地址出发可以找出所有与板块地 址格式相匹配的板块地址,再从板块地址出发就可以找到 所有与帖子地址格式相匹配的帖子地址,最后由帖子地址 即可以得到帖子所包含的信息。
2论坛爬虫设计
论坛爬虫分析
论坛爬虫的主要任务是从某个论坛的首页地址出发下 载该论坛的所有帖子。它涉及到的三个实体类分别为:论 坛实体、板块实体和帖子实体,与之对应的JavaB ean对象 分别为:Sit eBean、BoardB ean、ArticleB ean,具体分析 如下:
SiteBean是对论坛基本信息的封装,其属性包括论坛 名称、论坛地址、板块地址格式、帖子地址格式、翻页地 址格式。在数据库中使用Sitelnfo数据表来存放SiteBe an实体类。
Boar dBean是对板块信息的封装,其属性包含了板块 编号、板块名称、板块地址、帖子列表、论坛地址。这里 的articleList是一个数据类型为Link edList的集合。在
数据库中使用Boardln fo数据表来存放Boar dBean实体类。
A rticleBean是对帖子信息的封装,其属性包括帖子 地址、帖子标题、帖子编号、发表时间、保存时间、帖子 标识、所属板块、所属论坛。其中visit edFlag字段表示 帖子的处理状态,当visit edFlag=O时表示当前的帖子是 新帖子但还未被保存;当visitedF lag==l是表示帖子已经 被保存但是还没有被转化为XML文档;当visi tedFlag==2 时表示该帖子已经加入到索引中处理完毕;当visite dFlag==-l时,表示该帖子的处理失败。在数据库中使用 Article Info数据表来存放Ar ticleBean实体类。
论坛爬虫还用到两个非常重要的工具类Down Loader类 和 Page类。其中Down Loader类借助于提供的Http 协议访问功能,接收一个URL地址作为输入参数,下载该 URL地址所对应的网页文件,并将该网页内容封装成 P age类。 Pag e类则借助于提供的HTM L文件解析功能 从HTM L文件中提取出所需要的内容。 Page类的 extractBoard Url 方法以 SiteBe an 对象的 boardUr 1 属性
作为板块地址格式,从论坛首页中提取出论坛的板块地址 放入BoardB ean对象的articl eList属性中。
抓取板块地址
一般而言,论坛的所有板块地址都包含在论坛的首页 中,论坛爬虫通过读取论坛首页并匹配板块U RL地址格式, 可以获取该论坛的板块地址列表。抓取论坛板块地址的过 程如图1所示。
图1抓取论坛板块地址
抓取新帖地址
通过读取每个板块的首页地址并匹配帖子URL地址格 式及翻页URL地址格式可以获取该板块的所有帖子地址列 表。抓取帖子的具体过程如图2所示。在抓取帖子的过程中, 为了提高程序运行的效率,在发现新帖后先将新帖的地址 保存到Articl einfo数据表中,并将visitedFlag设置为0, 等待下载程序的进一步处理。
图2抓取论坛中的帖子
下载贴子
下载程序的功能是将网络论坛中的帖子以 文件的 格式保
原创力文档


文档评论(0)