垂直搜索引擎爬虫系统DIPRE算法及改进.docVIP

  • 8
  • 0
  • 约 4页
  • 2017-10-25 发布于北京
  • 举报

垂直搜索引擎爬虫系统DIPRE算法及改进.doc

垂直搜索引擎爬虫系统DIPRE算法及改进   摘 要:针对垂直搜索引擎中精确抽取网页中特定字段的问题,对DIPRE算法进行了研究和改进。阐述了DIPRE算法在垂直搜索引擎中的重要作用,探讨了DIPRE算法在抽取复杂结构网页时的不足,并提出了改进,包括种子定位方式,将单模匹配扩展成多模匹配并引入定位索引,再根据已有技术对改进后的算法进行了实验验证。结果表明,改进后的算法在精度和效率上都符合预期。   关键词关键词:垂直搜索引擎;DIPRE算法;种子定位;单模匹配;多模匹配;定位索引   DOIDOI:10.11907/rjdk.161451   中图分类号:TP312   文献标识码:A 文章编号:1672-7800(2016)008-0030-03   0 引言   垂直搜索引擎是针对某一特定领域、人群或需求提供的信息检索服务,因此垂直搜索引擎的爬虫(Spider)在抽取数据时应该具有相当的选择性。DIPRE(Dual Iterative Pattern Relation Extraction)是Google创始人之一Sergey Brin针对抽取互联网上特定格式或类型的数据而提出的一种算法,由于垂直搜索引擎具有较强的专业性和针对性,因而DIPRE算法在垂直搜索领域里具有较为广阔的应用前景,但随着Internet上的信息量呈指数级增长,网页结构越来越多样化,利用DIP

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档