基于规则引擎个性化主题网页爬虫研究-基于规则引擎.PDFVIP

  • 43
  • 0
  • 约 5页
  • 2017-06-07 发布于湖北
  • 举报

基于规则引擎个性化主题网页爬虫研究-基于规则引擎.PDF

第21卷 第 3期 计 算 机 技 术 与 发 展 Vo1.21 No.3 2011年 3月 COMPUTER TECHNOLOGY AND DEVELOPMENT Mar. 2011 基于规则引擎的个性化主题网页爬虫的研究 赵思佳 ,尹 婷 (中南大学信息科学与工程学院,湖南 长沙 410083) 摘 要:目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成 为人们新的工具 ,但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在 爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项 目Heritrix和开源规则引 擎项 目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成 了松耦合,降低了用户 配置难度。 关键词 :规则引擎;主题爬虫;搜索引擎 中图分类号:TP31 文献标识码 :A 文章编号 :1673—629X(2011)03—0056—04 Research ofPersonalizationThemeCrawlerBasedonRuleEngine ZHAOSi-jia,YINTing (InstituteofInformationScienceandEngineering,Cen~MSouthUniversity,Chnagsha410083,China) Abstract:Informationon theintemetisnow rapid ~owht,peoplemainly rely oilsearch cD~inesto find information,continue to strengthenasthespecialized,verticalsearchenginesbecomethenew tool,buttheprocessofbuildingspecializedsearchenginesismole complex.InordertosolvefocusedcrawlerisnotconfiguredflexibleOilverticalsearchengines,adoptallintegratedrulesengincinthe reptileonthewaytocontrolhtereptileshtroughtherulebaserunnnig.anduseahigherdegreeofopensourcescalableHeritrixcrawler projectandopenesufcerulesengineprojectDrools,easytobuildconfiguration,andhighflexibilityofindividualreptiles,whichwillset theoriginalhtemefrom htetightcouplingreptilesturnedintolooselycouplde ,reducinghteuesrconfigurationdifficult. Keywords:rulesengine;subjectcrawler;searchengine O 引 言 说企业搜索具有很强的针对性。 如今是一个信息膨胀的社会,用户普遍习惯通过 这个时候垂直搜索引擎就出现了,垂直搜索引擎 互联网查找信息 ,2008年Google公布其最新索引网页 主要是利用主题爬虫抓取符合某个主题的网页,再从 数量 000000000000个网页,一兆(百万的平方)的 非结构化的网页中抽取出结构化的数据进行存储 ,使 网页数,数量 比银河系的星体还多出一倍,并且每天以 得用户最终进行搜索时得到的不是网址,而是

文档评论(0)

1亿VIP精品文档

相关文档