基于搜索引擎分类及特点的分析.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于搜索引擎分类及特点的分析

基于搜索引擎分类及特点的分析   中国新技术新产品   2011NO .11   and Products   信息技术   基于搜索引擎分类及特点的分析   郭志强   1   杨松宁   2   吴光宇   3   (1、东北林业大学信息与计算机工程学院,黑龙江哈尔滨1500402、东北林业大学外国语学院,黑龙江哈尔滨150040   3、东北林业大学交通学院车辆工程,黑龙江哈尔滨150040)   摘   要:随着信息技术的发展, 网络的推广应用, 搜索引擎在网络用户的生活中起着举足轻重的作用, 本文就全文搜索引擎、目录搜索   引擎和元搜索引擎做分析比较, 并对目前的搜索引擎的特点进行了详细描述。关键词:搜索引擎;分类;特点;爬虫;元搜索引擎中图分类号:TN827+.3文献标识码:A搜索引擎的工作原理为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider 系统程序,自动访问互联网,并沿着任何网页中的所有URL 爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息根据一定的相关度算法进行大量复杂计算,得到每1个网页针对页面内容中及超链中每1个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。   搜索引擎按其工作方式可分为三种, 全文搜索引擎, 目录搜索引擎和元搜索引擎。   1全文搜索引擎   全文搜索引擎的代表是网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索   是搜索引擎的引擎从Internet 网上下载网页,   重要组成。传统爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL ,在抓取网页的过程中,不断从当前页面上抽取新的URL 放入队列, 直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并放入等待抓取的URL 队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页,并重复上述过程,直到达到系统的某一条件时停止。所有被爬虫抓取的网页将会被系统存贮,进行一定   过滤,并建立索引,以便之后的查询的分析、   和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。爬虫设计是否合理将直接影响它访问Web 的效率, 影响搜索数据库的质量, 另外在设计爬虫时还必须考虑它对网络和被访问站点的影响, 因为爬虫一般都运行在速度快, 带宽高的主机上, 如果它快速访问一个速度较慢的目标站点, 可能导致该站点出现阻塞。Robot 应遵守一些协议, 以便被访问站点的管理员能够确定访问内容,Index 是一个庞大的数据库, 爬虫提取的网页将被放入到In -dex 中建立索引, 不同的搜索引擎会采取不同方式来建立索引, 有的对整个HTML 文件的所有单词都建立索引, 有的只分析HTML 文件的标题或前几段内容, 还有的能处理HTML 文件中的META 标记或特殊标记。   2目录搜索引擎   目录搜索引擎的数据库是依靠专职人员建立的, 这些人员在访问了某个Web 站点后撰写一段对该站点的描述, 并根据站点的内容和性质将其归为一个预先分好的类别, 把站点URL 和描述放在这个类别中, 当用户查询某个关键词时, 搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述, 当目录的编辑人员认可该网站及描述后, 就会将之添加到合适的类别中。目录的结构为树形结构, 首页提供了最基本的入口, 用户可以逐级地向下访问, 直至找到自己的类别, 另外, 用户也可以利用目录提供的搜索功能直接查找一个关键词。由于目录式搜索引擎只在保存了对站点的描述中搜索, 因此站点本身的变化不会反映到搜索结果中, 这也是目录式搜索引擎与基于Robot 的搜索引擎之间的区别。分类目录在网络营销中的应用主要有下列特点:   通常只能收录网站首页(或者若干频道),而不能将大量网页都提交给分类目录;网站一旦被收录将在一定时期内保持稳定;无法通过 搜索引擎优化 等手段提高网站在分类目录中的排名;在高质量的分类目录登录,对于提高网站在搜索引擎检索结果中的排名有一定价值;紧靠分类目录通常与其他网站推广手段共同使用。   3元搜索引擎   我们可将元搜索引擎看成具有双层客户机/服务器结构的系统。用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求,搜索引擎执行元搜索引擎检索请求

文档评论(0)

tangtianbao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档