网络搜索技术.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络搜索技术

Web搜索引擎简述 ——多媒体技术教程 XXX 数媒1002 201026810713 2012年5月23日 Web搜索引擎简述 web搜索引擎简介 随着Internet的蓬勃发展,建立在Web超媒体上的各类应用层出不穷,但最为成功的也是应用最为广泛的莫过于搜索应用了。Web搜索技术起源于对Web信息的标引。早期并没有搜索引擎的概念,对信息的检索主要通过人工发现,然后由专门的编辑人员对这些信息进行标引分类,并建立目录,供用户使用。Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求。Google的产生大大提升了Web搜索的地位,使搜索引擎成为了十分成功的产业。在中国则是百度。这些搜索引擎的产生,不仅改善了Internet的应用环境,更重要的是,它们创造了一个新的技术时代,即网络搜索的时代。 二. web web搜索引擎的原理通常为:首先是用蜘蛛(Spider)进行全网搜索,自动抓取网页;然后将抓取的网页进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后,接受用户查询请求,检索索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。 基于上面的原理,下面将简要介绍Web搜索引擎实现。 1. 利用网络蜘蛛获取网络资源。 这是一种半自动化的资源获取方式。所谓半自动化,是指搜索器需要人工指定起始网络资源url(Uniform Resource Locator),然后获取该url所指向的网络资源,并分析该资源所指向的其他资源并获取。 网络蜘蛛访问资源的过程,是对互联网上信息遍历的过程。在实际的蜘蛛程序中,为了保证信息收集的全面性,及时性,还有多个蜘蛛程序的分工和合作问题,往往有复杂的控制机制。如google的在利用蜘蛛程序获取网络资源时,是由一个认为管理程序负责任务的分配和结果的处理,多个分布式的蜘蛛程序从管理程序活动任务,然后将获取的资源作为结果返回,并从新获得任务。 2. 利用索引器从搜索器获取的资源中抽取信息,并建立利于检索的索引表: 当用网络蜘蛛获取资源后,需要对这些进行加工过滤,去掉网控制代码及无用信息,提取出有用的信息,并把信息用一定的模型表示,使查询结果更为准确。Web上的信息一般表现为网页,对每个网页,须生成一个摘要,此摘要将显示在查询结果的页面中,告诉查询用户各网页的内容概要。模型化的信息将存放在临时数据库中,由于web数据的数据量极为庞大,为了提高检索效率,须按照一定规则建立索引。不同搜索引擎在建立索引时会考虑不同的选项,如是否建立全文索引,是否过滤无用词汇,是否使用meta信息等。索引的建立包括:分析过程,处理文档中可能的错误;文档索引,完成分析的文档被编码进存储桶,有些搜索引擎还会使用并行索引;排序,将存储桶按照一定的规则排序,生产全文存储桶。最终形成的索引一般按照倒排文件的格式存放。 3. 检索及用户交互: 前面两部分属于搜索引擎的后台支持。本部分在前面信息索引库的基础上,接受用户查询请求,并到索引库检索相关内容,返回给用户。这部分的主要内容包括:用户查询(query)理解,即最大可能贴近的理解用户通过查询串想要表达的查询目的,并将用户查询转换化为后台检索使用的信息模型;根据用户查询的检索模型,在索引库中检索出结果集;结果排序:通过特定的排序算法,对检索结果集进行排序。现在用的的排序因素一般有查询相关度,google发明的pagerank计术,baidu的竞价技术等。由于web数据的海量性和用户初始查询的模糊性,检索结果集一般很大,而用户一边不会有足够的耐性逐个查看所有的结果,所以怎样设计结果集的排序算法,把用户感兴趣的结果排在前面就十分重要。 三. Web搜索技术评估指标 传统的搜索引擎评估主要是针对3个方面:Speed(查询速度)即对用户查询到提交结果所用的时间;Precision(查准率)即首页中提交结果的精确度;Recall(查全率)即提交结果中包含权威页面(authority pages)或者分集页面(hub pages)的多少。 1 针对检索技术的评估 默认检索方式,即搜索引擎对关键词的组织方式;概念检索还是关键词检索;排除能力,即除去一些包含特殊词条的页面,在这些词条前面加一负号或者NOT逻辑符等;限定检索能力,即针对特定页面或范围检索的能力:检索范围,即是全文检索,还是特定范围或仅对检索词条在页面中某部分出现的检索;日期限定能力,即可对更新的或者新建立的页面的查询能力;针对短语的检索能力;嵌套检索能力,即支持圆括号对变量查询的重新拆分组合;多级检索能力,即在检索结果范围的子集内再检索的能力;敏感语义理解能力;

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档