java课程设计—网络爬虫搜索引擎.doc

下载文档 降价啦

6
0
约1.77万字
约 26页
2019-01-15 发布于安徽
举报
版权申诉
保障服务

java课程设计—网络爬虫搜索引擎.doc

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实用标准文案 PAGE 精彩文档学号：课程设计题目网络爬虫搜索引擎学院管理学院专业信息管理与信息系统班级姓名指导教师王新 201 年 7 月 4 日课程设计任务书学生姓名：指导教师：王新工作单位：信息管理与信息系统系题目: 网络爬虫搜索引擎初始条件：合理应用Java相关知识与编程技能，结合UML面向对象设计，解决信息管理领域的实际问题，如学生成绩管理、学籍管理、图书借阅管理、自动存取款机、通信录管理、商品销售管理、医院门诊管理、火车订票管理、影院自动售票、世界杯足球比赛管理、人力资源管理、酒店前台管理、房产中介管理、停车收费管理等。要求完成的主要任务: （包括课程设计工作量及其技术要求，以及说明书撰写等具体要求） 1．进行需求分析，撰写需求文档，绘制用例图。 2．识别需求文档中的类，建模类，初步绘制类图（之后逐渐完善）。 3．确定、建模类的实例变量。 4．确定、建模类的方法。 5．若有需要，在系统中加入继承与多态。 6．将UML图转换成Java代码框架。 7．设计算法，若有复杂的数据结构需求，使用相应集合框架。 8．设计数据访问层，若有数据持久化需求，使用数据库/文件。 9．添加表示层，若程序运行在桌面，使用图形用户界面。 10．实现完整的系统，最终Java源代码至少在300行以上。 11．进行测试，并给出相应结果。课程设计报告中要求详细描述思路、步骤、方法、实现、问题及解决过程、操作说明、测试及结果。时间安排： 1．2014年6月23日课程设计选题、查阅资料 2．2014年6月24日~25日 UML面向对象设计 3．2014年6月26日~7月1日 Java程序设计与代码调试 4．2014年7月2日改进、完善、测试系统 5．2014年7月3日~7月4日上午撰写、提交课程设计报告 6．2014年7月4日下午课程设计答辩指导教师签名：年月日系主任（或责任教师）签名：年月日网络爬虫搜索引擎 1项目介绍 1.1开发背景该项目软件开发的意图是开发出一款网络爬虫软件。应用目标为搜集网络信息，便于查询使用。在如今的BIG DATA时代，网络信息庞大而又复杂，用户很难直接从中获得需要的信息。网络爬虫软件就是将这些信息收集并整理，当用户发起搜索请求时，该系统可将用户最需要的信息反馈给用户。 1.2用户的特点本软件为免费软件，可供所有可使用互联网的用户使用。最终用户只需掌握基本的上网技术即可，操作人员的主要工作是启动和关闭服务器，只需掌握基本的电脑使用方法即可。维护人员需要专业的程序员，懂得Java的网络编程以及计算机网络基础，教育水平在专科以上。软件的预期工作时间为24h/日。组织结构图及用户角色如图表1-1所示： 1.3需求分析 1.3.1各子模块功能的描述本系统共分为三大模块：爬虫模块、数据库模块和搜索模块，也就是后台、前台和数据库。每一个模块有各自的分工，最后三大模块集合在一起构成一个完整的网络爬虫系统。各个子模块的详细功能如下： 1.3.2爬虫模块第一个模块为爬虫模块。爬虫模块的主要任务是负责寻找网页，并将网页内的URL和关键字提取出来。此模块又详细分为两大模块：服务器模块和正则引擎模块，这两个模块分别负责上述的两个功能。服务器模块向某个种子URL发送请求，或得其页面内容；正则引擎模块将服务器获取的页面用正则表达式对其进行分析，截取其中的URL和关键字，然后再将URL传递给服务器模块。系统按照这样的方式不断的抓取网页并进行分析，最后将结果存进数据库。 1.3.3搜索模块第二个模块是搜索模块，用户在搜索界面输入关键字，然后系统在数据库中搜索对应的关键字，最后将结果返回给用户。此模块又分为搜索界面和结果界面。搜索界面是首页，用户在此界面中输入想要搜索的关键词，这些关键词将被此页面记录下来传递到数据中进行搜素。结果页面是数据库结果的接受者，当数据库完成搜素后会将结果传递给次页面，然后结果页面会将结果呈现给用户。 1.3.4数据库模块数据库模块在整个系统中起到存储和桥梁作用。爬虫模块将搜索的结果整理完成后存入数据库，搜索模块从数据库中获取需要的信息并呈现给用户。 1.4对非功能性的需求 1.4.1精度该系统的输入为一个字符串，里面包含了一个或多个关键字，长度在38个汉字以内，超过的部分将被直接舍弃。输出的数据要求包括网站的URL和页