2011现代搜索引擎技术论文.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2011现代搜索引擎技术论文

现代智能化之WEB搜索技术 摘要:在Internet的快速发展时代,搜索引擎系统技术越来越成为人们网上冲浪和获取信息的必要工具。搜索引擎,旨在Internet中主动搜索信息并自动索引、提供查询服务的一类网站。针对该问题,基于WEB的搜索引擎技术自1994年以来已经发展了三代,本文从WEB搜索技术的智能化、个性化发展轨迹和应用特点开始,深入探讨了智能搜索引擎系统的结构、构建以及相关应用算法思想。 关键词:WEB搜索引擎;智能化;Lucene ;中文切词 一、现代智能化之WEB的定义、发展趋势与应用热点 1.1定义 无论是从搜索引擎的工作原理分析,还是从搜索引擎各部分所涉及的主流技术分析,搜索引擎的发展始终围绕的是用户:Robot的设计要为用户搜集尽可能全的信息;Page Rank技术或者HITS迭代算法或者其他的排序策略都是要为用户提供高质量的查询结果;空间向量模型在检索过程中用于相关度的计算,目的是要使结果更加符合用户查询要求。超文本链接的研究,Web文档相关度的计算都是基于信息资源本身的研究。 1.2 发展趋势与应用特点 当前,第三代搜索引擎的发展趋势是更加智能化、个性化,并在此基础上力求具备更高的查全率与查准率,更全面的查询功能。首先,通过目录型和检索型的搜索引擎技术相互结合,提供多样化和个性化的服务。以 Yahoo 为例,用户可以从它的首页上查看新闻、金融证券信息、天气预报、浏览黄页,可以进行网上购物、拍卖、找人,或者使用免费 E-Mail 和网上寻呼等服务。近期许多搜索引擎已开始提供个性化的服务,例如 Yahoo 的“My Yahoo”、InfoSeek 的“personalized start page”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面上。 搜索引擎技术是当今计算机应用技术的前沿学科,搜索引擎技术目前已经发展了三代。 第一代是基于人工登入、检索、排序的目录式搜索引擎,以YAHOO为代表。我认为这一代搜索引擎的局限在于查全率(检出的文档与相关文档之比)比较低。目录式搜索引擎还存在两大问题:一是分类是按分类者或分类软件的分析而定,不一定与用户的意见一致;如果用户对查找目标了解比较浅显,就需要从其14个大类别开始选取,再一层一层深入,而忽略了事物的横向客观联系。当要查找一个容易引起多意理解的概念如:“病毒、神经网络”等,用户可能就会深入多个目录树型结构中去。二是如果用户查找的信息没有对应的分类项,则无法进行搜索。 第二代搜索引擎是基于用户输入的查询关键词检索型的搜索引擎,以Google和Baidu 、AltaVista为代表,通过使用网络机器人(WEB ROBOT)自动遍历决大多数INTERNET网页,并存贮其中的主要文本内容、图片或多媒体信息。在本地维护一个海量的网页存储数据库,存储数十亿至几百亿个网页,根据关键词的使用频度建立索引(这也是个巨量的工作)并维护之,利用特有的页面排序算法(如GOOGLE的PAGE RANK)返回给用户查询结果。由于页面权值算法有其特点,尽管查全率比第一代搜索引擎有很大提高,但不能保证查准率(检出的文档与目标文档之比)。另外,它们仍然是基于关键词的搜索查询,在用户方面,关键词的选择可能导致查询结果有较大的差异。 第三代搜索引擎一词在2004年的曝光率(或者叫做“媒体可见性”)非常高,重要原因之一是国内服务商竞相推出“第三代搜索引擎”。 “互联网提供了即时丰富的信息(以及人与人沟通参与/娱乐的平台),深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。不论我们想从互联网中寻找清华北大的网址、李小龙的图片,或者养猫的方法,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。 1.3 当前其他搜索引擎技术介绍 元搜索引擎技术也日益得到人们的重视。元搜索引擎是一种集成化搜索引擎,它是多个独立型搜索引擎的集合体,没有自己的数据库,是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用,甚至是同时利用多个搜索引擎实现检索操作。元搜索引擎有代表性的是:国外的 Profusion、Mamma 以及国内的万纬搜索等,实用的搜索引擎必将具备对多种信息类型文件的检索功能;后者是基于P2P(Peeto Peer)J技术发展起来的,因为相距万里的用户可以通过P2P 共享硬盘上的文件、目录甚至整个硬盘。如果把这一理念具体运用到搜索引擎技术上来:P2P将使户能够深度搜索文档,而且这种搜索无须通过Web服务器,可以不受信息文档格式和宿主设备的限制,因此可达到传统目录式搜索引擎无可比拟的深度

文档评论(0)

cgtk187 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档