毕业设计论文 搜索引擎.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业设计论文 搜索引擎.doc

目 录 第一章 课题背景知识 (1) 第一节 搜索引擎原理 (1) 第二节 搜索引擎分类 (2) 第三节 搜索引擎技术的发展历史 (4) 第四节 搜索引擎现状 (5) 第五节 搜索引擎展望 (6) 第二章 技术诠释 10) 第一节 HTTP及HTML (10) 第二节 网络蜘蛛 (11) 第三节 网页噪声 (13) 第四节 页面分析 (13) 第五节 中文分词 (16) 第六节 布尔代数 (19) 第七节 CGI (19) 第八节 SOCKECT网络编程 (20) 第三章 TOKING海量网页搜索系统体系结构及实现 21) 第一节 结构设计 (21) 第二节 数据流图 (22) 第三节 网页抓取部分 (31) 第四节 网页预处理部分 (35) 第五节 信息查询服务部分 (42) 第六节 用户反馈 (46) 第七节 功能拓展 (46) 第八节 优化用户感受 (50) 第四章 系统测评 52) 第一节 抓取速度 (52) 第二节 分词效率 (52) 第三节 搜索评价 (53) 参考文献 54) 致 谢 55) 附 录 56) 第一章 课题背景知识 70年代中期,美国国防部高级研究计划局DARPA (Defense Advanced Research Projects Agency)开始了互联网技术的研究。而WWW (World Wide Web)自1989年诞生以来,近二十年来发展迅猛,它已成为人类社会信息资源中的一个重要组成部分,越来越多的社会信息资源实体开始选择Web作为其载体。 著名的netcraft(via Digg)刚刚完成了最新的互联网调查,结果显示到2006年3月31日止,互联网上一共网站。而单是在06年3月这一个月里,世界上的网站数量就增长了310万个。而在2003年8月所得的调查结果为4000万个,这说明了互联网上的网站数量在过去的3年里就已经翻了一番,增长速度十分惊人。著名的网站排名的国际网站在2007年4月更是收录了全球大约有34762836735个网址。由此,人们在信息海洋中搜索自己所需要的信息的能力显得愈发重要,搜索引擎成了人们在网上检索信息的必要工具。 搜索引擎,一个计算机应用软件系统,或者一个网络应用软件系统。从网络用户的角度看,它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。为了有效地做到这一点,它大致上被分成三个子系统;即网页搜集,网页预处理和查询服务。网页搜集主要负责网页的抓取,由URL服务器、爬行器、存储器、分析器和URL解析器组成, 爬行器是该部分的核心;网页预处理主要负责对网页内容进行分析,对文档进行标引并存储到数据库里,由标引器和分类器组成,该模块涉及许多文件和数据,有关于桶的操作是该部分的核心;查询服务主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果返回给用户,由查询器和网页级别评定器组成,其中网页等级的计算是该部分的核心。搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序每隔一定的时间自动启动并读取网页URL服务器上的URL列表,按深度优先或广度优先算法,抓取各URL所指定的网站,将抓取的网页分配一个唯一文档,存入文档数据库。并将当前页上的所的超连接存入到URL服务器中。在进行抓取的同时,切词器和索引器将已经抓取的网页文档进行切词处理,并按词在网页中出现的位置和频率计算权值,然后将切词结果存入索引数据库。整个抓取工作和索引工作完成后更新整个索引数据库和文档数据库,这样用户就可以查询最新的网页信息。查询器首先对用户输入的信息进行切词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序并进行集合运算,最后从文档数据库中提取各网页的摘要信息反馈给查询用户。 图1-1-1 搜索引擎通用总体系统结构图搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。    图1-2-1 全球著名全文搜索引擎LOGO目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档