一种基于搜索策略的多主题信息采集方法.pdfVIP

  • 6
  • 0
  • 约 7页
  • 2016-03-14 发布于安徽
  • 举报

一种基于搜索策略的多主题信息采集方法.pdf

一种基于搜索策略的多主题信息采集方法.pdf

第 期 电 子 学 报 12 Vol.42 No.12 年 月 2014 12 ACTAELECTRONICASINICA Dec. 2014 一种基于搜索策略的多主题信息采集方法 1 1 2 1 仲兆满 ,李存华 ,刘宗田 ,管 燕 ( 淮海工学院计算机工程学院,江苏连云港 ; 上海大学计算机学院,上海 ) 1. 2220002. 200072 摘 要: 本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结 果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系 在原子规则之间 . 关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确 率,另一方面减少搜索采集的次数 针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息 . 相关性的过滤方法 设置 条主题规则(拆分后的原子规则为 条), 个内置搜索引擎和 个通用搜索引擎,在 . 138 8223 14 4 单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较 结果表明,所提方法在信息采 . 集数目及相关信息采集数目方面均具有较好的性能. 关键词: 多主题信息采集;原子规则;内置搜索;通用搜索;相关性计算 中图分类号: 文献标识码: 文章编号: ( ) TP311 A 03722112201412235207 电子学报 : : : URL http//www.ejournal.org.cn DOI 10.3969/j.issn.03722112.2014.12.003 AMethodofMultiTopicCrawlingBased onSearchStrategy 1 1 2 1 , , , ZHONGZhaoman LICunhuaLIUZongtian GUANYan ( , , , , ; 1.SchoolofComputerEngineeringHuaihaiInstituteofTechnologyLianyungangJiangsu222000China , , , )

文档评论(0)

1亿VIP精品文档

相关文档