垂直搜索引擎的设计和实现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎的设计和实现

垂直搜索引擎的设计与实现 软件工程硕士论文:垂直搜索引擎的设计与实现 第一章绪论 1.1研究背景 随着信息技术的快速发展,互联网得到了飞速的发展,成为人们学习、工作、 生活中的最重要的知识和信息来源。根据CNNIC(中国互联网络信息中心)2006 年1月17日发布的中国互联网络发展状况统计报告》1,截止到2005年12 月31日,我国的网民总人数为11100万人,上网计算机总数已达4950万台,我 国网站数为694,200个.目前,整个互联网中文网页数超过20亿,Google收 录了5亿中文网页,百度收录了8亿中文网页嘲. Internet上的信息资源随着Internet的发展呈现出以下特点; l、信息量大而且分散 2、自治性强 3、信息资源多种多样 4、不一致和不完整 为了获取所需的信息,用户必须借助一定的工具,他们通常使用以下两类网 站:一 第一类是分类目录式搜索引擎,其典型代表是Yahoo。它主要采用人工方式 或半自动方式收集和整理Internet上的信息,根据所搜集网页的内容再手工将 其网址分配到所采用的分类主题目录的不同层次级别类目之下。用户查询时,通 过逐级层层浏览这些类目,寻找自己所需的网址信息。这类搜索引擎因为加入了 人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息 量少等。 第二类是基于查询串方式的搜索引擎(也称为通用搜索引擎),这类搜索引 擎指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信 息,在对信息进行处理和组织后,为用户提供Web信息查询服务。从使用者的角 度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语, 然后很快返回一个可能和用户输入内容相关的信息列表。这类通过关键词匹配实 现查询的自动更新的搜索引擎优点是涵盖的网页数量巨大,因为它拥有基于关键 字的全文索引,它为所有网上冲浪的用户提供了一个入口,所有的用户都可以从 搜索引擎出发到达自己想去的网上任何地方。搜索引擎对用户是这样的重要,成 为了用户上网的常用服务,根据《中国互联网络发展状况统计报告》1,用户经 常使用的网络服务是:浏览新闻(67.996)、搜索引擎(65.7%)、收发邮件(64.7%)、 即时通讯(41.996)、论坛/BBS/讨论组等(41.6%)。 然而,事实也已经证明单纯依靠搜索引擎提供的分类目录和关键词检索,搜 索效果并不理想。分类目录所涵盖的网页资源需要人工编辑,因此数量有限。而 对于关键词检索,虽然搜索引擎技术几经完善,但是信息的查全率和查准率还是 相当低下,特别是较低的查准率使得用户得到搜索结果后还需进一步挑选,智力 负担相当重。即使比较著名的诸如Google等搜索引擎对检索结果采用了基于超 链接的相关度排序,但它们主要依据的也只是网页被其他网页认可的程度,并非 网页与用户真实检索需求之间的关联程度,同时结果中包含了大量与用户查询请 求不相关的文档,用户在返回的动辄成千上万条记录中寻找相关文档犹如大海捞 针。 造成这种现象的原因很多,从主观上讲,对于分类目录,用户通常并不一定 清楚搜索引擎提供的分类目录是否真正包含自己所需的内容,而且缺乏必要的分 类知识也会使得用户难以在庞大的、经常动态调整的类目间准确定位。1。而对于 关键词检索,用户通常键入的词语是非常简练的,而且也无法保证是否与命中记 录存在关系。从客观上讲,搜索引擎技术还有相当大的完善空间。目前的技术在 提高网页查全率和相关度排序上已经达到了较高的水平,但是对于自动网页分类 和聚类、基于概念的检索词匹配等方面仍然要求技术突破。除了这些技术原因外, 产生目前问题的原因还包括一些设计方面存在的缺陷。如搜索引擎系统与用户的 接口设计存在障碍,让彼此难以通过现有的界面进行良好的表达和反馈,用户无 法有效地根据搜索引擎的提示调整检索策略,搜索引擎也无法以一种方便用户操 作的合理方式来展示查询结果。作为一项直接面对普通用户的检索技术,搜索引 擎要想实现检索的成功,一定要能在用户与检索系统之间建立良好的沟通渠道。 这个渠道能使用户准确表达自己的检索需求,同时系统能够准确理解用户的检索 意图,并且能以一种用户感觉良好的方式显示结果。但事实上,孤立地使用单一 的分类目录和关键词检索,往往都使得这种愿望难以实现。在现阶段技术水平下, 要提高搜索引擎的检索效果,必须从搜索引擎的基础收录入手,并采用分类目录 和主题检索相结合的方法。 1.2搜索引擎的现状分析 搜索引擎起源于传统的全文检索理论,即通过扫描每一篇文档资料中出现的 词语,建立以关键词为单位的索引文件,并通过界面让用户使用关键词进行检索。 从深层次来看,搜索引擎的出现有技术的必然性,主要原因在于快速发展的网络 提供的资源极大地超出了人们能够自然有效地利用传统方法

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档