- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用标准文案
PAGE
精彩文档
学 号:
课 程 设 计
题 目
网络爬虫搜索引擎
学 院
管理学院
专 业
信息管理与信息系统
班 级
姓 名
指导教师
王新
201
年
7
月
4
日
课程设计任务书
学生姓名:
指导教师: 王新 工作单位:信息管理与信息系统系
题 目: 网络爬虫搜索引擎
初始条件:
合理应用Java相关知识与编程技能,结合UML面向对象设计,解决信息管理领域的实际问题,如学生成绩管理、学籍管理、图书借阅管理、自动存取款机、通信录管理、商品销售管理、医院门诊管理、火车订票管理、影院自动售票、世界杯足球比赛管理、人力资源管理、酒店前台管理、房产中介管理、停车收费管理等。
要求完成的主要任务: (包括课程设计工作量及其技术要求,以及说明书撰写等具体要求)
1.进行需求分析,撰写需求文档,绘制用例图。
2.识别需求文档中的类,建模类,初步绘制类图(之后逐渐完善)。
3.确定、建模类的实例变量。
4.确定、建模类的方法。
5.若有需要,在系统中加入继承与多态。
6.将UML图转换成Java代码框架。
7.设计算法,若有复杂的数据结构需求,使用相应集合框架。
8.设计数据访问层,若有数据持久化需求,使用数据库/文件。
9.添加表示层,若程序运行在桌面,使用图形用户界面。
10.实现完整的系统,最终Java源代码至少在300行以上。
11.进行测试,并给出相应结果。
课程设计报告中要求详细描述思路、步骤、方法、实现、问题及解决过程、操作说明、测试及结果。
时间安排:
1.2014年6月23日 课程设计选题、查阅资料
2.2014年6月24日~25日 UML面向对象设计
3.2014年6月26日~7月1日 Java程序设计与代码调试
4.2014年7月2日 改进、完善、测试系统
5.2014年7月3日~7月4日上午 撰写、提交课程设计报告
6.2014年7月4日下午 课程设计答辩
指导教师签名: 年 月 日
系主任(或责任教师)签名: 年 月 日
网络爬虫搜索引擎
1项目介绍
1.1开发背景
该项目软件开发的意图是开发出一款网络爬虫软件。应用目标为搜集网络信息,便于查询使用。在如今的BIG DATA时代,网络信息庞大而又复杂,用户很难直接从中获得需要的信息。网络爬虫软件就是将这些信息收集并整理,当用户发起搜索请求时,该系统可将用户最需要的信息反馈给用户。
1.2用户的特点
本软件为免费软件,可供所有可使用互联网的用户使用。最终用户只需掌握基本的上网技术即可,操作人员的主要工作是启动和关闭服务器,只需掌握基本的电脑使用方法即可。维护人员需要专业的程序员,懂得Java的网络编程以及计算机网络基础,教育水平在专科以上。软件的预期工作时间为24h/日。
组织结构图及用户角色如图表1-1所示:
1.3需求分析
1.3.1各子模块功能的描述
本系统共分为三大模块:爬虫模块、数据库模块和搜索模块,也就是后台、前台和数据库。每一个模块有各自的分工,最后三大模块集合在一起构成一个完整的网络爬虫系统。各个子模块的详细功能如下:
1.3.2爬虫模块
第一个模块为爬虫模块。爬虫模块的主要任务是负责寻找网页,并将网页内的URL和关键字提取出来。此模块又详细分为两大模块:服务器模块和正则引擎模块,这两个模块分别负责上述的两个功能。
服务器模块向某个种子URL发送请求,或得其页面内容;正则引擎模块将服务器获取的页面用正则表达式对其进行分析,截取其中的URL和关键字,然后再将URL传递给服务器模块。系统按照这样的方式不断的抓取网页并进行分析,最后将结果存进数据库。
1.3.3搜索模块
第二个模块是搜索模块,用户在搜索界面输入关键字,然后系统在数据库中搜索对应的关键字,最后将结果返回给用户。
此模块又分为搜索界面和结果界面。搜索界面是首页,用户在此界面中输入想要搜索的关键词,这些关键词将被此页面记录下来传递到数据中进行搜素。结果页面是数据库结果的接受者,当数据库完成搜素后会将结果传递给次页面,然后结果页面会将结果呈现给用户。
1.3.4数据库模块
数据库模块在整个系统中起到存储和桥梁作用。爬虫模块将搜索的结果整理完成后存入数据库,搜索模块从数据库中获取需要的信息并呈现给用户。
1.4对非功能性的需求
1.4.1精度
该系统的输入为一个字符串,里面包含了一个或多个关键字,长度在38个汉字以内,超过的部分将被直接舍弃。输出的数据要求包括网站的URL和页
您可能关注的文档
- EPC承包方式解释.doc
- E筋翻样软件专业版常见问的题目解答.doc
- F5负载均衡双机热备实施方案设计.doc
- Final Cut Pro X简介及基本使用技巧.doc
- G120变频器与PLC300通讯设置及驱动器状态字和控制字读写.doc
- Google搜索从入门到精通v4.0.doc
- grasshopper运算器名称的总结.doc
- GRE作文的题目库所有244道Issue的题目地写作提纲.doc
- hp1020 (HP2612A)硒鼓加粉现用图解.doc
- HP服务器Smartstart ACU软件配置.doc
- 沉积学知到智慧树期末考试答案题库2025年中国石油大学(华东).docx
- 成为儿童文学作家知到智慧树期末考试答案题库2025年上海大学.docx
- 朝鲜-韩国概况知到智慧树期末考试答案题库2025年山东大学(威海).docx
- 材料力学(山东联盟-中国石油大学(华东))知到智慧树期末考试答案题库2025年中国石油大学(华东).docx
- 操作系统(哈尔滨工程大学)知到智慧树期末考试答案题库2025年哈尔滨工程大学.docx
- 材料性能学知到智慧树期末考试答案题库2025年中国石油大学(华东).docx
- 财务管理知到智慧树期末考试答案题库2025年哈尔滨工业大学.docx
- 财会软件应用知到智慧树期末考试答案题库2025年青岛理工大学.docx
- 城轨智能运输知到智慧树期末考试答案题库2025年内蒙古交通职业技术学院.docx
- 材料力学性能知到智慧树期末考试答案题库2025年哈尔滨工业大学.docx
文档评论(0)