体系结构详细设计文档v2.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
体系结构详细设il?文档(初步) 信息爬取模块详细设计 注: 该模块包含以下四个基本功能 : TRIGGER : 爬取触发; CRAWLER : 网页爬取; FORMATTER : 格式化信息抽取 ; STORAGE_MANAGER言息转储; 1.概述: 承担的需求(主要秘密): >该模块实现定期从指左的站点爬取最新的商品信息页而,并且根据不同站点的页 而 结构,解析出商品信息,存储到服务器,供进行索引更新以及搜索的需要。 >要求能够为爬取行为,指立特立的更新时间间隔。 >要求按照需要对爬取结果进行过滤。 >要求根据不同的页而结构采取不同的信息抽取策略。 可能会修改的实现(次要秘密): 格式化信息抽取的策略可能发生改动; 信息转储的格式以及目标介质可能发生变化: 对爬取的结果信息进行过滤的条件可能发生变化; 角色 : 担任立期爬取并解析商品信息,存储到存储介质当中,为用户搜索模块提供持久化 的 信息来源。 1? 4 对外接口: 由于该模块默认进行周期性的信息爬取,并且对爬取到的信息进行存储。所以在业 务 功能层次上与其他业务功能相关模块并无相接。而在爬取并且提取的格式化信息要进 行存 储时,需要根据系统的统一要求,通过 DAO对于商品信息存储进行操作.屏蔽具 体的存储 底层细节。 相关的对外接口包括 DAO模块中的:ProductDAO的insert, update. DAOFactory的 createProductDao? ?类图 : ■ KEG—????* -5::::■: LR ::0? 4MOC 十HR 3I* 小? 9亠[卜f — II: ■ KEG — ????* -5 ::::■: LR :: 0 ? 4MOC 十HR 3 I* 小? 9亠[ 卜f — I I: I i ?? E ■? ? 化Q? 4AWt#*4 ¥ I X?J J3 *? ■ E.g —? K ,\AC 卜0 1 工促 A. ik 列一?■ S.K 工 wx — 3 ? ?冷 R? ? MU? dbqe? ? ej 1— .V s 磚 ? Kf MG7 ; “ ? WXS) Y “ ? ~? EXnO ? r ? MPry? QXt? A * ? e?Hi)Q( [T9 F [T9 F ?类描述: 类方法(重要方法要给岀前置与后置条件)与重要数据结构描述 接口编号 类名称 Trigger 描述 将间隔期到达事件通知并唤醒监听的爬取控制线程 接口声明 Rouse(); 前宜条件 当轮询至一个爬取信息更新间隔周期结束时 后置条件 触发爬取控制线程开始新 轮的商品信息爬取 接口编号 类名称 Con troller 描述 启动并且完成爬取控制器中各组件的初始化工作 接口声明 In itialize(); 前宜条件 Trigger发来更新爬取信息提醒 后置条件 从WorkerPool中获取Worker实例,并且开始爬取工作 接口编号 类名称 Con troller 描述 从WorkerPool获取 Worker实例,并且启动爬取工作的管理 接口声明 setStartToCrawl(); 前置条件 完成基本的初始化工作 后置条件 Worker开始执行爬取 接口编号 类名称 Scope 描述 从Config指定的配置内容中获取入口 URL 接口声明 readScope(); 前宜条件 Config完成对于服务设置的读取 后置条件 Frontier从Scope中读取并且维护 URL的容器 接口编号 类名称 Config 描述 根据config从文件中读取的服务器配置返回相应的键值对 接口声明 GetCo nfigMapper(); 前宜条件 Controller完成组件初始化 后置条件 Scope使用Config读取抓取范围的相关配置 接口编号 类名称 WorkerPool 描述 从Worker池中获取空闲的 Worker丿F始爬取工作 接口声明 GetAvailWorker(); 前置条件 Controller持有尚未进行爬取或者被挂起的爬取 URL 后置条件 开始 Worker的爬取任务 接口编号 类名称 Worker 描述 Worker具体的任务执行序列 接口声明 process。; 前宜条件 Controller获得该worker的控制权之后 后置条件 执行完成任务之后回收 接口编号 类名称 Pipeli ne 描述 启动管道中阀链的首个阀对爬取信息进行处理 接口声明 in vokeValveChai n() 前宜条件 爬取信息完成 后置条件 根据监听类的要求,完成处理后信息的转储 接口编号 类名称 ProcessValve 描述 完成对于爬取信息的处理,并且将处理后的信息交付给链中的下一个阀进 行处理 接口声明 In vokeNext(UR

文档评论(0)

ld066788 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档