- 43
- 0
- 约 5页
- 2017-06-07 发布于湖北
- 举报
第21卷 第 3期 计 算 机 技 术 与 发 展 Vo1.21 No.3
2011年 3月 COMPUTER TECHNOLOGY AND DEVELOPMENT Mar. 2011
基于规则引擎的个性化主题网页爬虫的研究
赵思佳 ,尹 婷
(中南大学信息科学与工程学院,湖南 长沙 410083)
摘 要:目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成
为人们新的工具 ,但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在
爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项 目Heritrix和开源规则引
擎项 目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成 了松耦合,降低了用户
配置难度。
关键词 :规则引擎;主题爬虫;搜索引擎
中图分类号:TP31 文献标识码 :A 文章编号 :1673—629X(2011)03—0056—04
Research ofPersonalizationThemeCrawlerBasedonRuleEngine
ZHAOSi-jia,YINTing
(InstituteofInformationScienceandEngineering,Cen~MSouthUniversity,Chnagsha410083,China)
Abstract:Informationon theintemetisnow rapid ~owht,peoplemainly rely oilsearch cD~inesto find information,continue to
strengthenasthespecialized,verticalsearchenginesbecomethenew tool,buttheprocessofbuildingspecializedsearchenginesismole
complex.InordertosolvefocusedcrawlerisnotconfiguredflexibleOilverticalsearchengines,adoptallintegratedrulesengincinthe
reptileonthewaytocontrolhtereptileshtroughtherulebaserunnnig.anduseahigherdegreeofopensourcescalableHeritrixcrawler
projectandopenesufcerulesengineprojectDrools,easytobuildconfiguration,andhighflexibilityofindividualreptiles,whichwillset
theoriginalhtemefrom htetightcouplingreptilesturnedintolooselycouplde ,reducinghteuesrconfigurationdifficult.
Keywords:rulesengine;subjectcrawler;searchengine
O 引 言 说企业搜索具有很强的针对性。
如今是一个信息膨胀的社会,用户普遍习惯通过 这个时候垂直搜索引擎就出现了,垂直搜索引擎
互联网查找信息 ,2008年Google公布其最新索引网页 主要是利用主题爬虫抓取符合某个主题的网页,再从
数量 000000000000个网页,一兆(百万的平方)的 非结构化的网页中抽取出结构化的数据进行存储 ,使
网页数,数量 比银河系的星体还多出一倍,并且每天以 得用户最终进行搜索时得到的不是网址,而是
您可能关注的文档
最近下载
- 2025《麻江县蓝莓产业发展现状调研分析报告》4900字.docx
- 2026年国网安全管理方案.docx VIP
- 2025年北京师范大学学科教学培养方案 .pdf VIP
- 初级消防试题及答案大全.docx VIP
- 核医学教学课件:血液和淋巴显像.ppt VIP
- 重庆市各地方周氏支族源流(1-170支族).doc VIP
- 建筑工程质量管理体系流程图.docx
- 淋巴系统核医学检查课件.ppt VIP
- (高清版)B-T 6003.1-2022 试验筛 技术要求和检验 第1部分:金属丝编织网试验筛.pdf VIP
- (已压缩)TUCST007-2020房屋建筑与市政基础设施工程施工安全风险评估技术标准.docx VIP
原创力文档

文档评论(0)