浅析网络搜索引擎.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析网络搜索引擎.doc

浅析网络搜索引擎   【摘 要】由于人们在使用以往的搜索引擎搜索时,得到的搜索结果往往并不是用户希望的结果,使得传统的搜索引擎并不能满足用户的要求。所以,要满足用户的搜索要求,就必需采用新的技术和手段改善搜索引擎的性能。本文就目前比较常用的改善搜索引擎的手段和技术做出了浅显的探讨。   【关键词】搜索引擎 优化策略 自动分类 概念检索   伴随着互联网的高速发展,互联网已经渗透到人们生活的各个角落,人们的生活已经离不开互联网,当人们遇到问题时不再是查阅书本,越来越多的人倾向于去互联网寻找答案。有关数据表明,截止到目前,美国Google公司的搜索引擎的索引量已超过41亿。一般来说由于互联网传递的信息数量之大,种类之多,更新速度之快的特点。用户要想从庞杂的信息中找到自己想要的信息实属不易,因此,对搜索引擎进行优化,对信息分类显得很有必要。基于以上问题,有如下措施可以改善,把不同的资源分类,拟定搜索关键词,进而实现智能化搜索,接下来将对以上所提到的改善策略详细说明。   一、网络搜索引擎的性能优化策略和相关技术   就早期的搜索引擎而言,其搜索系统主要由爬行器、索引器、和检索器三部分构成,用户在使用搜索引擎搜索时,搜索结果的准确性往往由以上三部分决定。因此,要想提高搜索引擎的准确性,必须改善爬行器、索引器、和检索器三部分。下文将就如何改善以上三部分做出具体的说明。   (一)权威性   资源的权威性是对资源分类的一个重要参考指标,资源之所以具有权威性是因为其内容和质量长时间内得到了用户的认可,具有相当高的可信度。因此,用户在对资源检索时,必须让这些权威性的资源出现在检索结果前面,让用户一眼就能看见。   同时,判断资源是否具有权威性靠人来判定是不现实的,一方面互联网上资源数量之大,靠人力来评判资源的权威性显然行不通,其次,在评判资源的权威性时,人或多或少的会带有主观性。因此,在评定网络资源的权威性时,建立合理科学的评判标准,让系统自动的评判资源的权威性显得很有必要。由于网络资源的特殊性,实际操作时可以根据资源的来源链接进行分析判断。   (二)关键词   用户在使用搜索引擎搜索答案之前就已经有明确的目标,自己要搜索什么,想得到什么样的搜索结果,所以必须把用户搜索的关键词和有关资源联系起来,并进行判断排序,进而显示在搜索结果里。需要强调的是,这个匹配过程,需要系统在用户搜索过程中迅速收集各种文档,根据有关技术对资源和用户搜索的关键词进行匹配,进而把最优的,符合用户需求的资源排在搜索结果前面。   在对资源和关键词匹配时,比较关键的技术就是自动分类技术。自动分类技术对网络资源分析处理时,主要根据资源的相似性对资源分类,检索式的结果因检索的关键词不同而不同,自动分类技术的好处是用户在输入搜索内容后,得到检索结果之前,搜索引擎就可以快速对用户搜索的关键词和资源进行匹配,重要的是,自动分类技术只对搜索得到的结果进行分类,这样的好处是不仅降低了开发搜索引擎的成本,而且还极大的缩短了搜索时间,提高了搜索的准确率。目前常用的自动分类技术方法有单遍聚类法、逆中心距聚类法。这两种方法有着很大的差别,体现在前者是对资源预先分类,实际操作起来比较复杂,后者操作起来虽然较简单,但由于对资源分类不明确,对资源的关键词匹配没有前者准确。在实际应用时,可根据具体情况来选择不同的分类方法。   (三)个性化   一千个读者有一千个哈姆雷特,同样的问题,由于用户文化水平的参差不齐,对不同的问题有不同的表述方式,因此,在实际检索中即使输入的关键词相同,但不同的用户想得到的搜索结果可能有很大的差别。所以,用户在输入关键词检索时,搜索引擎应该根据用户的不同情况,进而对关键词做出深入的分析,进而匹配用户需要的资源,所以在实际应用中搜索引擎应该具有个性化。   1.用户兴趣模型   要想实现检索的个性化,建立一个适当的模型就很有必要。其中建立模型的关键在于收集用户的检索习惯,对于用户的检索习惯可通过如下两种方法进行收集,首先是给用户选择的权利,让用户选择让他感兴趣的内容。此种方法理论上是非常有效的,但实际操作起来难度特别大。因为实际情况是极少数用户愿意去选择自己感兴趣的内容。其次是根据用户以前的浏览历史和搜索记录来分析用户的喜好,这种搜索方法不需要用户的参与,由系统自动完成,但是对系统的要求比较高,且前提是有一定的用户基数。用户兴趣模型建立之后,当用户搜索时,搜索引擎便通过用户兴趣模型快速对资源匹配,让用户需要的资源显示在搜索结果前面。   2.用户信息反馈   由于用户在检索问题是,对一个问题的描述往往并不准确,但用户发现自己的搜索结果不是自己预期的结果时,往往会对问题重新描述,这个过程通常称为反馈,此时搜索引擎要及时改变资源匹配方法

文档评论(0)

guan_son + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档