- 15
- 0
- 约3.75万字
- 约 44页
- 2017-11-29 发布于江西
- 举报
软件工程专业毕业论文--面向web service的网络爬虫设计与实现 任务书 开题报告 外文翻译
软件工程专业毕业论文--面向web service的网络爬虫设计与实现+任务书+开题报告+外文翻译
SChakrabartiMvan den Berg and comsed Crawling A New Approach to Topic-Specifi Web Resource Discovery[C]In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999
[4]郑力明易平Design of Crawler Based on 6HTML Parser Information Extraction微计算机信息Microcomputer Information09June2009
J Cho H Garcia-Molina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th Inter-national Conference on Very Large Database Cairo Egypt 2000
[6]李文泽个性化垂直搜索引擎研究河南大学2007-11-07
[]曾伟辉李淼 深层网络爬虫研究综述[J] 计算机系统应用 2008
[]周立柱 林 玲 聚焦爬虫技术研究综述[J]计算机应用 2005年9月
[9]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to Topic-Specific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999
[10]陈汶滨夏学梅 基于聚焦爬虫的手机天气预报系统[J] 今日科苑 2009年第2期
[1]邱哲符滔滔 开发自己的搜索引擎--Lucene 20Heritrix 人民邮电出版社 2007-4
[1]罗刚 自己动手写网络爬虫 清华大学出版社 2010-10-1
[]Heritrix官方网站[EBOL] cracom
[1]seeda网站[EBOL] webservcom
[]网络爬虫[EBOL] httpbcomview284853htmWeb服务的网站地址
根据种子地址搜索种子网站上的Web服务
把搜索到的Web服务相关信息存入数据库中
为了达到以上目的本系统将对Heritrix开源框架进行扩展并针对服务网站上服务的特点选择合适的爬虫抓取过程
当服务网站提供了详细的服务信息且网站服务的分布结构是有规律的那么通过对网站结构的分析可以得到网站中服务分布的一颗树并用形式化语言描述这棵树而经过扩展之后的爬虫对这颗树进行遍历就实现了抓起网络上分布的Web Service
当服务网站没有提供服务的信息只提供了WSDL文档的URL那么就遍历网站中所有的本网站的网页并判断网页中的链接是否是WSDL文档的URL
如果是就下载该WSDL文档
指导教师签字
年 月 日
审题小组组长签字
年 月 日
本科生毕业设计论文开题报告
课题名称 Web Services 网络爬虫 学院名称 软件学院 专业名称 软件工程 学生姓名 指导教师 课题来源及意义
互联网上的服务数量正快速的增长分布在不同的网站上导致服务的用户需要在不同的网站之间寻找一个或者多个符合自己需求的服务对于服务开发者来说他们无法快速准确的得知现有的服务开发现状服务开发者无法重用现有的服务重复开发已有的服务导致一个糟糕的服务开发环境
本课题的任务是抓取互联网上分散的服务具有重要意义本系统把互联网上的服务都收集起来并存储在本地数据库用户或者服务开发者就可以在基于该本系统数据库的搜索引擎中查找到所有的互联网上大部分的服务节省了在不同网站间查找服务的时间服务用户可以快速准确的找到符合自己需求的服务服务开发者可以快速得知服务开发现状避免重复开发并且可以利用现有服务进行组合开发等
国内外发展状况
收集互联网上的信息的系统被称为网络爬虫 又被称为网页蜘蛛网络机器人在FOAF社区中间更经常的称为网页追逐者 它是一种按照一定的规则自动的抓取万维网信息的程序或者脚本另外一些不常使用的名字还有蚂蚁自动索引模拟程序或者蠕虫
网络爬虫按照系统结构和实现技术大致可以分为以下几种类型[1]通用网络爬虫聚焦网络爬虫增量式网络爬虫通用网络爬虫[2]又称全网爬虫 Scalable W
您可能关注的文档
- 论新闻媒体对社会的双重影响.doc
- 论明清家具的审美特征.doc
- 论民族文化元素在现代服装设计中的运用.docx
- 论沈从文的边城.doc
- 论网络舆论引导的法治建设.docx
- 论草类纤维原料制浆的几项原则_兼谈山东泉林纸业麦草制浆技术的成功要素.docx
- 论题、勤奋刻苦的事例.doc
- 设备维护保养检查记录.doc
- 设施园艺发展现状的调查报告.doc
- 设计师的历史与发展.ppt
- 某镇领导班子2025年度民主生活会对照检查材料.docx
- 高级中学党政办公室主任2025年度述职述廉报告.docx
- 在镇“锤炼作风提效能,凝心聚力建新功”主题春训活动动员部署会上的讲话.docx
- 在2026年春季开学教职工会议上的讲话.docx
- 公司党支部2025年度组织生活会对照检查材料.docx
- 在树立和践行正确政绩观学习教育动员部署会议上的讲话.docx
- 专题党课:筑牢作风“防火墙” 展现司法新担当.docx
- 在树立和践行正确政绩观学习教育专题研讨会上的发言材料.docx
- 在公司2026年度党建暨党风廉政大会上的讲话.docx
- 在县委党的建设工作领导小组会议上关于开展树立和践行正确政绩观学习教育部署工作的讲话.docx
原创力文档

文档评论(0)