- 9
- 0
- 约1.05万字
- 约 23页
- 2017-08-22 发布于重庆
- 举报
URL规则基于聚焦爬行.doc
摘要
垂直搜索引擎使用集中爬虫作为关键组件,开发一些特定的算法选择相关的一些预先定义的一组专题网页。因此,如何有效地为特定主题建立一个语义模式是这样的搜索引擎非常重要的。在本文中,我们提出了一个UBFC(URL规则根据doublecrawler基于聚焦爬虫)算法
框架(实验履带式和集中履带式)。我们UBFC的内核是一个普通的URL表达学习者,其用于自动学习并推广的URL的规则表达式示例网页。将如此生成的URL正则表达式用于指示UBFC工作。运用
UBFC,我们开发了一个基于Nutch的聚焦爬虫的,并得到一个很好的结果。评估UBFC,我们进行了一些实验,通过比较做出的分析有两个提出的方法,在BFSC(广度优先搜索爬虫)和BLFC(基线聚焦爬虫)。
介绍
通用的搜索引擎,如谷歌(),为我们提供了很多设施,并成为很受欢迎。然而,它们具有一些缺点 [1].因为一个一般用途的搜索引擎的目标是覆盖网络足够越好,因此它通常返回许多网页的用户不感兴趣的内容。此外,它使服务器和无限幅数据的有限资源之间的一些冲突。当用户尝试搜索一些信息,他们通常集中在一些特定的主题。那么垂直搜索引擎,如 谷歌产品搜索诞生了。他们搜索特定主题的信息,因此他们只需要抓取网站数据的一小部分,并使用更少的服务器资源来管理所有的互联网话题的具体数据。一般的搜索引擎采用相对简单的爬行策略,以获取尝试所有的网站,同时他们希望设计出
您可能关注的文档
最近下载
- 年产5万吨铝板,6万吨铝酸钠、铝酸钙建设项目环境影响报告书.pdf VIP
- (2026年)CRRT治疗参数的意义PPT课件.pptx VIP
- 行政区域界线管理概论 - 行政区域界线管理教程教案.ppt VIP
- DB45T 2967—2025 地基激光雷达典型森林类型地上碳储量调查技术规范.pdf VIP
- 2025至2030中国粉防己提取物行业深度研究及发展前景投资评估分析.docx
- 人教版四年级下册数学期中试卷15套(新版).pdf VIP
- 企业驾驶员安全生产培训.pptx VIP
- Lenovo Lenovo 维护手册 SR860 用户手册.pdf VIP
- 泌尿外科内镜检查操作规范.docx
- 中国汽车材料数据系统CAMDS培训教学PPT课件.ppt
原创力文档

文档评论(0)