爬虫设计报告(朱晓杉).docVIP

  • 142
  • 0
  • 约3.21千字
  • 约 9页
  • 2020-07-29 发布于福建
  • 举报
蓝豹技术小组 项目书 Lanbao Teach Team PAGE Copyright ? Lanbao Teach Team 2013年设计项目书 网络页面分析软件 设计人:朱晓杉 设计小组:蓝豹小组 日期:2013-11-23~ 0 软件概述 基本要求与大纲:(400字以内) 基本要求与大纲:(400字以内) 本软件包括主题与分类爬虫设计、数据库设计、统计分析结果显示与控制三个部分。其中,爬虫设计包括了条件设置、主题定义以及爬虫数据的分类存储;数据库设计包括对爬虫内容的分类存储,存储以可分析为设计要点;统计结果分析以数值化、曲线以及仿真方式实现。 本分析软件注重对信息的时间分析与简单内容分类,时效性分析的一般模型是以N个时间排序的页面,进行简单的数据K/N的量化。其中简单内容分类是量值的标准,爬虫的分类是反应这些内容的主要指标,根据爬虫的主题或条件限制(如关键字和时间等)的不同形成分类。 1 设计内容与目的:(分类叙述,500字以内,图不计) 设计内容: 设计内容:爬虫设计、分析数据库、数据分析与网络辅助 设计目的: 分析web、论坛、博客、淘宝等各种类型的页面,进行数据分析,得到有效分析结果。 整体步骤: 抓取url(分层深度抓取) url过滤(根据判定条件,过滤掉无效的url) 拖拽有效url网页文本入库 数据分析 分析结果表达与显示(Jtree、画树) 语言:java环境: 语言:java 环境:Winxp系统 PC机一台(联网) 使用工具:MySQL 3 设计框架与技术路线(采用的主要技术与难点、关键模块) 可增页面 总纲:分为爬虫设计、分析数据库、数据分析与网络辅助三个过程。 总纲:分为爬虫设计、分析数据库、数据分析与网络辅助三个过程。 细节: 一、爬虫设计 1、由爬虫搜索程序、爬虫数据库、爬虫监控程序与界面组成。其中爬虫搜索程序是由服务探测(web服务、ftp服务与其它web端口)、主页面探测分类(关键字可主题探测)程序、有效路径确定(数据库)程序、数据(页面)拖拽程序(时间和内容)组成。 2、对于有效的路径是指符合服务(web或定义)、具有分类特征(关键字与主题)的url; 3、有效路径数据库是指用于指向当前数据的url数据库,库由完整的路径名、建立路径时间、最后一次访问时间、访问次数、成功访问次数、返回信息等组成;其中访问次数(二个)、返回信息由爬虫服务探测程序与数据页面拖拽程序进行标记。 4、爬虫监控程序与界面用于对放出的爬虫进行监控,监控包括爬虫放出的时间、拖拽的数量、现在的位置(地图)、可能运行的时间以及出现的问题(状态、原因分析等),并给出界面。 二、分析数据库 1、分析数据库以时间性分析为核心,因此对信息的时间因素要求包括:时间、历史时间、周期、同步以及与事件相关的文字。分析数据库以分析维数据字(时间标度)、内容数据字、分类数据字组成。结构如表一: 分析维数据字 内容数据字 分类数据字 例 当前时间、页面建立时间、最近一次修改时间、页面标记时间、访问建立时间、最近一次访问时间、访问一次时长、拖曳时间时长、连接时间…… 主页面路径、主页面名、主页面关键字、主页面类型字……网站页面深度(最大树)、IP分类(区域)、…… 黄山、徽州、新安、Huangshan、Huizhou、Xinan、旅游 说明 用于分析坐标与曲线、数值的参考系 分析数据的主要数据内容 可以定义 2、分析界面以Tree_Lib形式,界面有以曲线显示窗口与数值输出、动态演示(窗口)组成。分析数据以分析数据库数据为源数据,辅助网络验证(选择)。 3、分析界面设计软件由界面程序与分析算法程序、相应数据集市(视图)组成。 4、通过访问监控数据库,显示爬虫当前的状态(放养时间、每分钟(小时)访问量(扫描)、失败数(成功)、最后一次爬虫联络时间、当前爬虫所在IP(端口)、爬虫探测距离(路由数)、爬虫任务数量与完成进度等)与数据拖拽状态(成功率(返回)、符合率(内容)、数量(页面数或大小)、流量或最大返回流量等)。 重难点: 数据库框架设计(连接生成树) 爬虫搜索设计(网页分类搜索)、爬虫监控 数据分析、网页性能分析 分析结果曲线显示 框架设计图(流程图): GrabLinks2.java 根据输入的主页(图左上角 1)通过Jsoup包获取子子链接,入库表WebPage; GetWebText.java开启线程,分层

文档评论(0)

1亿VIP精品文档

相关文档