b站内信息搜索系统.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
b站内信息搜索系统.PDF

基于Lucene的Web站内信息搜索系统 3、免费链接列表 (FreeForAllLinks,简称FFA):这类网站一般只简单地 滚动排列链接条 目,少部分有简单的分类 目录,不过规模比起Yahoo等目录索引来 要小得多。 1.4主要搜索引擎简介 现在在网上的搜索引擎也已经有很多4〔1,比较著名的有Google,AltaVista, Yahoo,InfoSeek,Metacrawler,SavvySearch等等。国内也建立了很多的搜索引 擎,比如:搜狐、新浪、百度等等。其中在信息搜索的取全率和取准率上做得做好 的还数Google。 当然搜索引擎的准确度和用户查询相关度还有待于改进和提高。 AItaVista是一个速度很快的搜索引擎,由于它强大的硬件配置,使它 其复杂的查询。它主要是基于关键字进行查询,它漫游的领域有Web和 g。r110 Usenet。支持布尔查询的”AND,OR和N“OT,同时还加上最相近定位 N“EAR,允 许通配符和 “向后’搜索 (比如:你可以查找链接到某一页的所有Web站点)。你可 以决定是否对搜索的短语加上权值,在文档的什么部位去查找它们。能够进行短语 查询而不是简单的单词查询的优点是很明显的,比如,我们想要查找一个短语 t‘obe ornottobe,如果只是把它们分解成单词的话,这些单词都是属于StopWord, 这样这个查询就不会有任何结果,但是把它当作一个整体来查询,就很容易返回一 些结果,比如关于哈姆雷特或者是莎士比亚等等的信息。系统对查询结果所得到的 网页的打分是根据在网页中所包含的你的搜索短语的多少,它们在文档的什么位置 以及搜索短语在文档内部之间的距离来决定的。同时可以把得到的搜索结果翻译成 其他的语言。 -一 Exite是称为具有”智能“的搜索引擎,因为它建立了一个基于概念的索 引。当然,它所谓的“智能“是基于对概率统计的灵活应用。它能够同时进行基于概 念和关键字的索引。它能够索引Web,Usenet和分类的广告。支持”AND,OR,NOT 等布尔操作,同时也可以使用符号”+’’和 一“”。缺点是在返回的查询结果中没有指定 网页的尺寸和格式。 基于Lucene的Web站内信息搜索系统 -一 InfoSeek是一个简单但是功能强大的索引,它的一个优点是有一个面向 主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题短语相 互参照,而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关 性。同时它也支持对图象的查询。它能够漫游Web,Usenet,UsenetFAQs等等。不支 持布尔操作,但是可以使用符号+“’’和一‘“(相当于”AND和N“OT) -一 Yahoo[3〕实际上不能称为是一个搜索引擎站点,但是它提供了一个分层 的主题索引,使你能够从一个通常的主题进入到一个特定的主题,Yahoo对Web进 行了有效的组织和分类。比如你想要建立一个网页,但是你不知道如何操作,为了 在Yaho。上找到关于建立网页的信息,你可以先在Yaho。上选择一个主题:计算机 和工nternet,然后在这个主题下,你可以发现一些子主题,比如:Web网页制作, CGI编程,JAVA,HTML,网页设计等,选择一个和你要找的相关的子主题,最终你 就可以得到和该子主题相关的所有的网页的链接。也就是说,如果你对要查找的内 容属于哪个主题十分清楚的话,通过目录查询的方法要比一般的使用搜索引擎有更 好的准确率。你可以搜索Yaho。的索引,但是事实上,你并没有在搜索整个Web. 但是Yaho。提供了选项使你可以同时搜索其他的搜索引擎,比如;AltaVista。但 是要注意的是Yahoo实际上只是对Web的一小部分进行了分类和组织,而且它的实 效性也不是很好。 -一 Google是当前搜索准确度和用户查询相关度最好的搜索引擎。它的牛要 优势在于:1、大容量的页面存储空间。据称Google目前收录的Web网页总量己经 高达80亿。2、及时响应速度。据统计,Google的普通搜索花费的平均时间在0.3 秒以内,这得益于其数百台的高性能硬件服务器系统和分布式并行查询软件系统。3. 查询返回的结果不仅仅集中于大型热门网站,而更多的是针对特定的Web页面 即 使存放该页面的网站很偏僻)。这样能够获得较高的用户查询相关度和准确度,因 为用户往往需要得到有更多实际内容和包含更多有用信息的网页页面,而

文档评论(0)

153****2993 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档