本 科 毕 业 论 文
Design and implementation of subject-oriented crawler
姓 名:路 刚
学 号:23020051204554
学 院:软件学院
系:软件工程
专 业:软件工程
年 级:2005级
指导教师:史亮 副教授
二〇〇九 年 六 月
摘 要
目前信息网上蕴含了大量的信息,但通过人工浏览的方法很难做到对信息的安全浏览、整理,很多有用的信息也就白白流失,产生了大量信息不能及时应用的矛盾,给用户造成了很大的不便,为了解决这一问题,搜索引擎这一新热点技术应运而生,本文结合信息网的特征,运用信息抽取和网页解析技术,设计和实现了搜索引擎中最重要的部分——网络爬虫,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。
本文首先对概述了网络爬虫的发展概况,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征与主题相关性的判别算法,具体工作如下:
(1)爬虫部分,通过设计种子网站进行爬虫,下载尽可能全且与用户要求相符合的网站。
(2)网页预处理过程,包括分词、HTML解析和网页消噪。在对树节点进行
您可能关注的文档
最近下载
- 初中七年级(初一)数学下册专题练习版.docx VIP
- 新能源汽车制动系统仿真分析.doc VIP
- 严重创伤院前急救中国专家共识2026.pptx
- 成人零基础英语教学课件.ppt VIP
- 初中英语单词(带音标).doc VIP
- 2024年哈密市商业银行股份有限公司建国北路支行秋季校园招考笔试试卷带答案详解.docx VIP
- 2024年哈密市商业银行股份有限公司复兴路支行秋季校园招考笔试试卷带答案详解.docx VIP
- 2024年哈密市商业银行股份有限公司花园支行秋季校园招考笔试试卷带答案详解.docx VIP
- 2024年哈密市商业银行股份有限公司人民路支行秋季校园招考笔试试卷带答案详解.docx VIP
- 蒲县垃圾分类试点县餐厨垃圾处理厂项目环评(2021年新版环评)环境影响报告表.pdf VIP
原创力文档

文档评论(0)