- 4
- 0
- 约2.63万字
- 约 49页
- 2017-01-02 发布于辽宁
- 举报
JIU JIANG UNIVERSITY
毕 业 论 文
题 目 网络爬虫技术探究英文题目 Web Spiders Technology Explore 院 系 信息科学与技术学院
专 业 计算机科学与技术
姓 名 闻泽
班级学号 A081129
指导教师 邱兴兴
二一二年五月摘 要
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息,以及网络营销常要的邮箱地址信息等。
本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;系统实现过程中的数据存储;网页信息解析等。
通过实现这一爬虫程序,可以搜集某一站点的所有URLs,并通过得到的URLs采集到页面的内容,在从内容中提取到需要的内容,如邮箱地址以及页面标题等。再将得到的URLs等采集到数据存到数据库,以便检索。本文从搜索引擎的应用出发,探讨了网络爬虫在搜索引擎中的作用和地位,提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和
您可能关注的文档
最近下载
- 国家标准 NYT 3437-2019 沼气工程安全管理规范.pdf VIP
- 安全科学原理(理论知识)试题及答案.doc VIP
- 2025年(安全工程)安全科学原理试题及答案.doc VIP
- 2025 年大学安全工程(安全科学原理)上学期期末测试卷.doc VIP
- 阿里云DataClaw:如何让Agent安全访问数据(2026年).pdf
- TGXAS 697-2024 融水苗族服饰.pdf VIP
- 2025 年大学安全工程(安全科学原理)试题及答案.doc VIP
- 2026年DataClaw:如何让 Agent安全访问数据报告.docx
- 安全科学原理期末考试试题.docx VIP
- 东南A5翼舞_汽车使用手册用户操作图示图解详解驾驶指南车主车辆说明书电子版.pdf VIP
原创力文档

文档评论(0)