DLibExamFileUpload崔开源06-2-1搜索引擎的原理与检索技巧20110328153106.pptVIP

DLibExamFileUpload崔开源06-2-1搜索引擎的原理与检索技巧20110328153106.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎一般系统流程 4.1主要的中文搜索引擎 中文雅虎/ 搜狐/ 新浪网/ 网易/more/index.shtml 天网搜索 4.2主要的英文搜索引擎 二、Altavista (http//) Altavista是由前DEC 公司于1995 年开发的,Internet 上最大的搜索引擎,在它的搜索数据中包含了2,200 万个主页、3,000万个URL和13,000 个新闻组的全文信息。 Altavista的搜索范围非常大,就连一些鲜为人知的偏僻站点也能找到,因此它的搜索结果十分丰富。 四、 Lycos(http://www. L) Lycos 创立于1995 年,是Internet上资格最老的搜索引擎之一。它的特点是功能强大,搜索范围广。它几乎覆盖了Internet上90%的主页,可以进行包括WWW、FTP与Gopher 等多种服务的搜索。由于Lycos 的学术背景,它可以搜索到其他搜索引擎找不到的偏僻站点,比如一些面向教育或非赢利组织的站点。 6、搜索引擎的发展趋势 一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料 搜索引擎的发展趋势  ⒈提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。 搜索引擎的发展趋势 ⒉垂直主题搜索引擎有着极大的发展空间。网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。目前,一些主要的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。 搜索引擎的发展趋势 ⒊元搜索引擎,能够提供全面且较为准确的查询结果。现在的许多搜索引擎,其收集信息的范围、索引方法、排名规则等都各不相同,每个搜索引擎平均只能涉及到整个Web资源的30-50%,这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。 * 搜索引擎 ——原理与搜索方法 一、搜索引擎的概念和分类 1、搜索引擎概念 就是在Internet上执行信息搜索的专门站点,它们可以对主页进行分类与搜索。如果输入一个特定的搜索词,搜索引擎就会自动进入索引清单,将所有与搜索词相匹配的内容找出,并显示一个指向存放这些信息的连接清单。 2、搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 全文搜索引擎(Full Text Search Engine) 如:Google、Baidu、Yahoo、Bing 目录索引类搜索引擎(Search Index/Directory) 如:搜狐、新浪、网易、Yahoo 元搜索引擎(Meta Search Engine) 如: 搜索引擎之上的搜索引擎。 3、全文搜索引擎工作原理 全文搜索引擎是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 全文搜索引擎都拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用。 全文搜索引擎工作原理 搜索引擎的自动信息搜集功能分两种。一种是每天24小时不间断地,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行

文档评论(0)

fc86033 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档