基于规则引擎个性化主题网页爬虫研究-基于规则引擎.PDFVIP

下载本文档

43
0
约 5页
2017-06-07 发布于湖北
举报

基于规则引擎个性化主题网页爬虫研究-基于规则引擎.PDF

第21卷第 3期计算机技术与发展 Vo1．21 No．3 2011年 3月 COMPUTER TECHNOLOGY AND DEVELOPMENT Mar． 2011 基于规则引擎的个性化主题网页爬虫的研究赵思佳，尹婷 (中南大学信息科学与工程学院，湖南长沙 410083) 摘要：目前互联网上的信息正在飞速的增长，人们主要依靠搜索引擎查找信息，随着专业化不断加强，垂直搜索引擎成为人们新的工具，但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题，采用在爬虫上集成规则引擎的方法，通过规则库来控制爬虫运行，并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools，构建配置方便、灵活度高的个性化爬虫，从而将原先主题爬虫的设置从紧耦合转变成了松耦合，降低了用户配置难度。关键词：规则引擎；主题爬虫；搜索引擎中图分类号：TP31 文献标识码：A 文章编号：1673—629X(2011)03—0056—04 Research ofPersonalizationThemeCrawlerBasedonRuleEngine ZHAOSi-jia，YINTing (InstituteofInformationScienceandEngineering，Cen~MSouthUniversity，Chnagsha410083，China) Abstract：Informationon theintemetisnow rapid ~owht，peoplemainly rely oilsearch cD~inesto find information，continue to strengthenasthespecialized，verticalsearchenginesbecomethenew tool，buttheprocessofbuildingspecializedsearchenginesismole complex．InordertosolvefocusedcrawlerisnotconfiguredflexibleOilverticalsearchengines，adoptallintegratedrulesengincinthe reptileonthewaytocontrolhtereptileshtroughtherulebaserunnnig．anduseahigherdegreeofopensourcescalableHeritrixcrawler projectandopenesufcerulesengineprojectDrools，easytobuildconfiguration，andhighflexibilityofindividualreptiles，whichwillset theoriginalhtemefrom htetightcouplingreptilesturnedintolooselycouplde ，reducinghteuesrconfigurationdifficult． Keywords：rulesengine；subjectcrawler；searchengine O 引言说企业搜索具有很强的针对性。如今是一个信息膨胀的社会，用户普遍习惯通过这个时候垂直搜索引擎就出现了，垂直搜索引擎互联网查找信息，2008年Google公布其最新索引网页主要是利用主题爬虫抓取符合某个主题的网页，再从数量 000000000000个网页，一兆(百万的平方)的非结构化的网页中抽取出结构化的数据进行存储，使网页数，数量比银河系的星体还多出一倍，并且每天以得用户最终进行搜索时得到的不是网址，而是

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于规则引擎个性化主题网页爬虫研究-基于规则引擎.PDFVIP