- 5
- 0
- 约2.63万字
- 约 49页
- 2016-12-21 发布于辽宁
- 举报
JIU JIANG UNIVERSITY
毕 业 论 文
题 目 网络爬虫技术探究英文题目 Web Spiders Technology Explore 院 系 信息科学与技术学院
专 业 计算机科学与技术
姓 名 闻泽
班级学号 A081129
指导教师 邱兴兴
二一二年五月摘 要
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息,以及网络营销常要的邮箱地址信息等。
本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;系统实现过程中的数据存储;网页信息解析等。
通过实现这一爬虫程序,可以搜集某一站点的所有URLs,并通过得到的URLs采集到页面的内容,在从内容中提取到需要的内容,如邮箱地址以及页面标题等。再将得到的URLs等采集到数据存到数据库,以便检索。本文从搜索引擎的应用出发,探讨了网络爬虫在搜索引擎中的作用和地位,提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和
您可能关注的文档
- 本科毕业论文—图形创意与平面广告设计.doc
- 本科毕业论文—土地征收正当法律程序之探讨.doc
- 本科毕业论文—土木施工厦门中联施工组织设计.doc
- 本科毕业论文—拖拉机半轴壳端面钻孔夹具设计.doc
- 本科毕业论文—外圆无心磨床导轮架及其修整器结构设计正文.doc
- 本科毕业论文—弯道要素特征表达方法.doc
- 本科毕业论文—外资零售业市场准入与发展我国零售业的对策.doc
- 本科毕业论文—基于8051单片机的流水灯设计.doc
- 本科毕业论文—万能遥控器.doc
- 本科毕业论文—王阳明-心学-对提高当代大学生道德素质的意义.doc
- 大庆市红岗区2025-2026学年第二学期四年级语文期末考试卷(部编版含答案).docx
- 潍坊市奎文区2025-2026学年第二学期四年级语文第七单元测试卷(部编版含答案).docx
- 秦皇岛市海港区2025-2026学年第二学期三年级语文第七单元测试卷(部编版含答案).docx
- 初中语文名篇知识点梳理.docx
- 清远市英德市2025-2026学年第二学期三年级语文期末考试卷(部编版含答案).docx
- 阿坝藏族羌族自治州茂县2025-2026学年第二学期三年级语文第七单元测试卷(部编版含答案).docx
- 营口市盖州市2025-2026学年第二学期三年级语文第七单元测试卷(部编版含答案).docx
- 开封市通许县2025-2026学年第二学期三年级语文期末考试卷(部编版含答案).docx
- 鸟氨酸循环试题及答案.docx
- 祈福医院委托书.docx
最近下载
- 300Mvar双水内冷调相机安装技术交底.pptx VIP
- 国家建筑标准设计图集20S515 钢筋混凝土及砖砌排水检查井.pdf VIP
- DB简易升降机安全技术规范.pdf VIP
- 学生学籍信息管理规范流程手册.docx VIP
- 《认识天气预报》幼儿园中班科学PPT课件.ppt VIP
- 2026年广东深圳市高三二模高考化学模拟试卷(含答案详解).pdf VIP
- 2025年江苏省启东市事业单位公开招聘考试职业能力倾向测验(D类)(中小学教师类)真题及参考答案.docx
- SCS-500E__V1[1].120130812 说明书系列 说明书系列.pdf VIP
- 2025《换热器的结构设计与强度计算过程案例》2900字.docx
- 毕业设计(论文)-苹果采摘机构末端执行器设计.docx
原创力文档

文档评论(0)