军事教育主题爬虫的设计与实现.docx

军事教育主题爬虫的设计与实现.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

军事教育主题爬虫的设计与实现

?

?

论文导读:网络信息资源也爆炸般的增长。如果没有一个好的搜索引擎。试验结果表明军事教育主题爬虫抓取网页的准确度及准确率都比普通爬虫的高。本文通过设计一个军事教育主题爬虫从网络上收集有关理财网页(代替军队的教育网页),以解决本实验室面向军事教育主题的个性化搜索引擎的资源问题。

关键词:网络,主题爬虫,搜索引擎,军事教育主题爬虫

?

l1引言

当今,随着Intemet在国内的迅猛发展,军队正在向现代化建军目标发展,为了使军队更快的向信息化,数字化方向发展,军队都在着手建设自己的信息网,网络信息资源也爆炸般的增长,在军队内的信息服务器上,同样能够获取许多有用的资源。如果没有一个好的搜索引擎,查询起来困难就可想而知。现在www网上基本都是一些商业性的探索引擎,这些引擎深度和广度都很大,有些甚至是整个环球网进行检索。论文发表,搜索引擎。而军队只需要搜索其内部网络即可。因此在军队网中安置一个针对军队信息资源进行搜索的爬虫十分必要。

l2军事教育主题爬虫的爬行策略

搜索引擎中最关键的部分是网络爬虫,它的性能好坏直接影响着搜索引擎的整体性能和处理速度。传统的网络爬虫是按照预先设定的广度优先策略、深度优先策略或这两种策略相结合的方式爬行网页[1]。网络爬虫的搜索策略与搜索引擎的性质和任务密切相关。决定网络爬虫搜索策略的关键是如何将不相关的网页快速地过滤并删除掉,因为网页过滤的速度和准确性将会直接影响网络爬虫的性能。以何种策略访问Web,成为近年来主题搜索引擎网络爬虫研究的焦点之一。军事教育主题爬虫是按照最佳优先的爬行策略爬行网页即军事教育主题爬行时按照主题相关度优先的爬行策略爬行网页。爬虫从网络上抓取到的新网页在爬行之前都要进行主题相关度分析,与初始种子网页相关度最高的网页被优先爬行,而与初始种子网页不相关或相关度不大的网页则被抛弃。因此与传统网络爬虫相比,军事教育主题爬虫的工作量大大减少、爬行的准确度大大提高。

l3军事教育主题爬虫的系统实现

3.1设计思路与总体柜架

从设计思路上,构造Spider有两种比较常用的方法。第一种是把Spider设计成一个递归的程序,第二种是编写一个非递归的Spider程序,程序维护一个要访问的网页列表,考虑到Java对数组、队列的包支持较为丰富,实现相对容易,本程序使用了第二种设计思路。

程序中总共维护了四个不同的队列,它们的总结如下。每一个这样的队列保存着同一处理状态的URL。

等待队列当Spider程序开始处理URL时,它们被传送到这一队列。重要的是同一个URL不能被多次处理,因为这样是浪费的。当一个URL被处理过后,它被移送到或者是错误队列或者是完成队列。论文发表,搜索引擎。论文发表,搜索引擎。

运行队列当前正在处理的URL队列。

错误队列如果在下载当前网页时发生错误,它的URL将被加入到错误队列。该URL到达这一队列后将不再移入其它队列。论文发表,搜索引擎。一旦网页移入错误队列,Spider程序将不会再对它作进一步处理。

完成队列如果在下载网页时没有发生错误,该URL将被加入到完成队列。该URL到达这一队列后将不再移入其他队列。

明显,每个得到的URL都只能存在于一个队列中。其状态流程图如下(图1):

评定分数计算公式采用信息检索中常用的词条权值计算方法为

TF-IDF函数

Wi,j=Avg(TFi)*(1/(log(nDoc/ni)+1/log(nDoc-1)))

Avg(TFi):对词i取其在各文档中的TF值进行平均;

nDoc:文档数目;

ni:出现词i的文档个数;

3.2程序结构及具体实现

网络爬虫种类很多,如有基于全文搜索的网络爬虫[2],聚类网络爬虫,主题网络爬虫,基于本体的网络爬虫等。在引入BOT包的基础上,实现了以并发进程方式对指定站点内部网页数据的访问和基于队列的处理,将抓取到的网页数据存储在本地数据库中。程序由四个文件组成:CheckLinks.java;HTMLParse.java;ISpiderReportable.java;Spider.java,程序工程报告如图2:

图2

用TF-IDF函数算出各个词语的权值,最终得到全部词的权值wordWeightOfAllDocument

publicclasssegmenter{

publicTreeMapzhwords;//用Treemap形式定义,带标签,方便对应查找

//下面定义的是一些统计词项与词频的链表

publicArrayListwordSum;

publicArrayListwordCount;

publicArrayListwordAll;

publicArrayListwordCountAll;

//根据选取网页的编码类型

文档评论(0)

138****9470 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档