人工智能大作业 - 主题爬虫 - 浙工大交换生 - 姜楠精要.docxVIP

下载本文档

2
0
约7.35千字
约 13页
2017-04-08 发布于湖北
举报

人工智能大作业 - 主题爬虫 - 浙工大交换生 - 姜楠精要.docx

人工智能大作业 - 主题爬虫 - 浙工大交换生 - 姜楠精要

成绩北京航空航天大学人工智能实验报告主题爬虫设计与实现学院浙江工业大学交换生专业方向计算机科学与技术学生姓名姜楠指导教师巢老师北京航空航天大学计算机学院2014 年6月主题爬虫的设计与实现引言互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具，但是这些通用性搜索引擎存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果，包含大量用户不关心的网页。所以需要一个能基于主题搜索的，满足特定需求的网络爬虫。为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，提供满足特定搜索需求的网络爬虫。实验设计实验要求可以进行多线程进行抓取；可以进行面向主题进行抓取；可以分辨重复的的网页内容；可以计算主题相关性；可以处理网络延时等待的处理；实验环境配置系统硬件环境：LENOVO-G470 Intel Core(TM) i3-2330M@2.20GHz操作系统环境：Windows 8.1 专业版实验配置环境：Java SE Development Kit 7 Update 45；Eclipse Kepler ；MySQL Server 5.6；实验方案设计广度优先搜索策略广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

人工智能大作业 - 主题爬虫 - 浙工大交换生 - 姜楠精要.docxVIP