网站大量收购独家精品文档,联系QQ:2885784924

搜索引擎系统实现.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎系统实现

目录 1.大作业要求1 2.可行性研究报告2 2.1引言2 2.2可行性研究前提2 2.3对现有系统的分析2 2.4系统技术的可行性分析3 2.5系统经济可行性分析4 2.6社会因素可行性分析4 2.7技术因素可行性分析4 2.8结论意见4 3.项目开发计划5 3.1引言5 3.2项目概述5 3.3实施计划6 3.4支持条件7 3.5专题计划要点7 4.需求规格说明8 4.1引言8 4.2项目概述9 4.3功能需求10 4.4非功能需求15 5.心得与体会16 6.附录17 7.评分标准18 本课程大作业要求 一、论文要求 (1)对所选系统进行严密的需求获取以及需求分析。 (2)给出所选系统的各层次需求,包括业务需求,用户需求,功能需求以及非功能需求。 (3)给出所要实现系统的项目开发计划(简略)以及需求规格说明书。 (4)需求规格说明书要详尽,必须包括以下内容:引言,总体描述,功能需求,接口需求以及其它非功能性需求等,符合需求规格说明书各项细则。 (5)附录中给出所选系统需求规格说明书中各图表的获取过程。 二、请根据自己的理解与体会谈谈软件需求工程过程的重要性。也可以以软件需求工程中某知识点谈谈自己的理解与看法。 可行性分析报告 一、引言 (一)编写目的: 搜索引擎已经成为广大网民日常生活中不可缺少的重要部分。中国互联网信息中心(CNNIC)2009年1月第二十三次调查报告显示:搜索引擎是网民在互联网中获取所需信息的基础应用,目前搜索引擎的使用率为68.0%,已经成为中国网民最常使用的网络服务之一,且学历越高,收入越高,搜索引擎使用率越高。而目前通用搜索引擎难以满足专业或高要求的客户的需求,而且网站需要提供搜索已给访问者更好的检索本站资源的方式 (二) 项目背景: 项目的任务提出者: 某网站 开发者:武汉理工大学软件工程10级学生 用户:需要进行专业搜索的客户或需要搜索应用的网站 实现平台: 本搜索引擎根据开源的爬虫模块及外加网站预处理部分和查询应用及排名服务整合优化构成 (四)参考资料: 《软件需求工程》——毋国庆 梁正平 编著 机械工业出版社 《软件工程导论》 ——张海藩 编著 清华大学出版社 《C程序设计》 —— 谭浩强 编著 清华大学出版社 《UML和模式应用》——Craig Larman 编著 机械工业出版社 《java语言与面向对象程序设计(第二版)》王行言编著出版社网站的资料参考 (一) 要求: 功能:通过关键字快速准确的检索出信息 输入:关键字 输出:与关键字有关的链接、信息条目 通过调查分析搜索引擎系统的基本架构及用户的要求以及更高效的算法 (三) 决定可行性的主要因素: 设备状况、操作人员技术、经济条件、团队合作精神。 三、对现有系统的分析 3.1组织机构调查 网站的日常管理维护人员对引擎系统三个组成模块的管理监控 3.2 工作流程 (1)爬虫模块 原始网页集由爬虫 spider 爬取网页并且保存在本地。 (2)预处理模块   收集到的单个网页,需要进行两种不同的处理,一种是放入网页库,作为后续处理的原始数据;另一种是被分析之后,抽取其中的 URL 连接,放入 URL 池等待对应网页的收集。 网页的保存需要按照一定的格式,以便以后数据的批量处理。建立网页的索引,并用分词器对网页进行分词进而创建倒排索引 (3)查询服务模块   通过接收用户的输入,调用后台程序对输入进行分词以及查询操作之后,将返回的查询结果在网页上显示 3.3 费用调查   开发所需的费用及硬件由需求网站提供 使用windowsXP及以上 3.5 人员 系统实时管理、维护、更新 3.6 局限性 搜索引擎于网站提供服务器的运算能力及网页信息搜集完全程度还有排序算法的有效程度 (一)对系统的简要描述 本搜索引擎系统使用 Java 语言而不是 C/C++ 等其它语言,因为 Java 中提供了对于网络编程众多的基础包和类,比如 URL 类、InetAddress 类、正则表达式,这为我们的搜索引擎实现提供了良好的基础,使我们可以专注于搜索引擎本身的实现,而不需要因为这些基础类的实现而分心。而且三个基本结构都有实现保障。 本项目应用了更简便并通用的模块,具有良好的查询速度并具备扩展性。同时采用多种更合适的排序算法,具备了更高效率,并确保所查询的信息更准确,更合用户心意更有经济效益。 1.设备:采用建议系统后,使用的设备不要求太高,但如果检测范围广资料多的话,需要服务器拥有合适的运算能力。 以上但要求支持java运行的。 4.对系统的影响:系统规模小,功能全,运行快。 (五)技术可行性评价 本软件

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档