- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
体系结构详细设il?文档(初步)
信息爬取模块详细设计
注: 该模块包含以下四个基本功能 : TRIGGER : 爬取触发; CRAWLER : 网页爬取; FORMATTER : 格式化信息抽取 ;
STORAGE_MANAGER言息转储;
1.概述:
承担的需求(主要秘密):
>该模块实现定期从指左的站点爬取最新的商品信息页而,并且根据不同站点的页 而
结构,解析出商品信息,存储到服务器,供进行索引更新以及搜索的需要。 >要求能够为爬取行为,指立特立的更新时间间隔。 >要求按照需要对爬取结果进行过滤。
>要求根据不同的页而结构采取不同的信息抽取策略。
可能会修改的实现(次要秘密):
格式化信息抽取的策略可能发生改动; 信息转储的格式以及目标介质可能发生变化: 对爬取的结果信息进行过滤的条件可能发生变化;
角色 :
担任立期爬取并解析商品信息,存储到存储介质当中,为用户搜索模块提供持久化 的
信息来源。
1? 4 对外接口: 由于该模块默认进行周期性的信息爬取,并且对爬取到的信息进行存储。所以在业 务
功能层次上与其他业务功能相关模块并无相接。而在爬取并且提取的格式化信息要进 行存
储时,需要根据系统的统一要求,通过 DAO对于商品信息存储进行操作.屏蔽具 体的存储 底层细节。
相关的对外接口包括 DAO模块中的:ProductDAO的insert, update. DAOFactory的 createProductDao?
?类图 :
■ KEG—????* -5::::■: LR ::0? 4MOC 十HR 3I* 小? 9亠[卜f — II:
■ KEG
—
????* -5
::::■: LR ::
0
? 4MOC 十HR 3
I* 小? 9亠[
卜f — I
I: I
i
?? E ■?
? 化Q?
4AWt#*4 ¥ I X?J J3
*?
■ E.g
—? K
,\AC
卜0 1
工促 A.
ik 列一?■
S.K 工 wx — 3
? ?冷 R?
? MU? dbqe? ? ej
1— .V s 磚
? Kf MG7 ; “
? WXS) Y “
? ~? EXnO ? r
? MPry? QXt? A *
? e?Hi)Q(
[T9 F
[T9 F
?类描述:
类方法(重要方法要给岀前置与后置条件)与重要数据结构描述
接口编号
类名称
Trigger
描述
将间隔期到达事件通知并唤醒监听的爬取控制线程
接口声明
Rouse();
前宜条件
当轮询至一个爬取信息更新间隔周期结束时
后置条件
触发爬取控制线程开始新 轮的商品信息爬取
接口编号
类名称
Con troller
描述
启动并且完成爬取控制器中各组件的初始化工作
接口声明
In itialize();
前宜条件
Trigger发来更新爬取信息提醒
后置条件
从WorkerPool中获取Worker实例,并且开始爬取工作
接口编号
类名称
Con troller
描述
从WorkerPool获取 Worker实例,并且启动爬取工作的管理
接口声明
setStartToCrawl();
前置条件
完成基本的初始化工作
后置条件
Worker开始执行爬取
接口编号
类名称
Scope
描述
从Config指定的配置内容中获取入口 URL
接口声明
readScope();
前宜条件
Config完成对于服务设置的读取
后置条件
Frontier从Scope中读取并且维护 URL的容器
接口编号
类名称
Config
描述
根据config从文件中读取的服务器配置返回相应的键值对
接口声明
GetCo nfigMapper();
前宜条件
Controller完成组件初始化
后置条件
Scope使用Config读取抓取范围的相关配置
接口编号
类名称
WorkerPool
描述
从Worker池中获取空闲的 Worker丿F始爬取工作
接口声明
GetAvailWorker();
前置条件
Controller持有尚未进行爬取或者被挂起的爬取 URL
后置条件
开始 Worker的爬取任务
接口编号
类名称
Worker
描述
Worker具体的任务执行序列
接口声明
process。;
前宜条件
Controller获得该worker的控制权之后
后置条件
执行完成任务之后回收
接口编号
类名称
Pipeli ne
描述
启动管道中阀链的首个阀对爬取信息进行处理
接口声明
in vokeValveChai n()
前宜条件
爬取信息完成
后置条件
根据监听类的要求,完成处理后信息的转储
接口编号
类名称
ProcessValve
描述
完成对于爬取信息的处理,并且将处理后的信息交付给链中的下一个阀进
行处理
接口声明
In vokeNext(UR
您可能关注的文档
最近下载
- 2025年专业工具通达信软件操作详解教材 .pdf VIP
- 沉降观测方案.docx VIP
- 《土地管理法》考试题库(含答案).docx VIP
- P12 更多的资料请参阅《2010学年上中CPS活动手册 上海中学.docx VIP
- 从肝论治2型糖尿病课件.doc VIP
- 于志强教授从肝论治糖尿病经验.docx VIP
- 2021届北京市海淀高三语文一模阅读部分讲评 课件(150张PPT).pptx
- 背负式风力灭火机的操作与使用 .ppt VIP
- 苏州七年级月考试卷及答案.doc VIP
- 山东科学技术版劳动实践指导手册三年级第11课公益劳动与志愿服务校园公益劳动清洁美化校园我行动 教案.docx VIP
文档评论(0)