大豆主题网页资源采集系统的研究.pdfVIP

  • 2
  • 0
  • 约6.64千字
  • 约 4页
  • 2018-05-09 发布于福建
  • 举报
农 机 化 研 究 第 3期 大 豆主题 网页 资源 采集 系统 的研 究 郭俊军 ,孟繁疆 ,张喜海,魏紫京 (东北农业大学 ,哈尔滨 150030) 摘 要:农业专业搜索引擎对特定主题的农业信息进行检索 ,其信息量多、精确度低 。针对此现状 ,以开源搜索 引擎 Nutch为技术框架 ,对大豆主题 网页资源采集系统进行了研究与设计 。以大豆信息为主题 ,研究了主题相关 度判别技术 ,借鉴 BM25F模型 的分域 思想 、基于向量空间模型 ,提出了大豆主题相关度判别算法。在 Nutch中引 入 IKAnalyzer中文分词工具包 ,实现 了大豆主题相关度 的判别。实验结果表 明,该算法能够显著地提高大豆主题 网页资源采集 的准确率 。 关键词 :网页抓取 ;大豆主题 ;主题相关度 ;农业 ;搜索引擎 中图分类号:S126 文献标识码:A 文章编号:1003—188X(2014)03—0182-04 0 引言

文档评论(0)

1亿VIP精品文档

相关文档