从搜索引擎原理分析网站的设计.docVIP

下载本文档

7
0
约4.77千字
约 10页
2018-10-12 发布于福建
举报
版权申诉

从搜索引擎原理分析网站的设计.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从搜索引擎原理分析网站的设计

从搜索引擎原理分析网站的设计　　摘要：本文从搜索引擎原理入手，分析了网站设计过程中需要注意的一些问题，这些问题帮助我们的网站如何更全面更快速更安全的被搜索引擎收录和更优先的被搜索引擎检索。　　关键词：搜索引擎原理；网站设计；网络蜘蛛；索引器；检索器Google 　　　　1、概述　　随着互联网的不断普及和飞速发展，Internet已成为人们快速获取、发布和传递信息的重要渠道。在Internet上发布信息主要是通过网站来实现的，获取信息也是要在Internet中按照一定的检索方式将所需要的信息从网站上下载下来。因此网站建设在Internet应用上的地位显而易见。要想在数以亿计的网页中寻找到自己所需要的信息，选择一个简洁、优秀、高效的搜索引擎至关重要。搜索引擎已经成为人们进行信息资源搜索必不可少的工具。　　2、搜索引擎的基本原理　　2.1搜索引擎的分类　　目录式搜索引擎是以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的主要代表是Yahoo。　　全文搜索引擎是由一个称为蜘蛛（Spider）的机器人程序以某种策略自动地在互联网中搜集和发现信息，由索引器为搜集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的主要代表是Google、百度。　　元搜索引擎没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行排序和重复排除等处理后，作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是不能够充分使用所使用搜索引擎的功能，用户需要做更多的筛选。这类搜索引擎的主要代表是WebCrawler、InfoMarket等。　　2.2全文搜索引擎的系统构造　　在此我们介绍全文搜索引擎，全文搜索引擎通常由搜索器、索引器、检索器和用户接口等四个部分组成。其系统协作图如下所示：?? 　　　　搜索器的功能是在互联网中漫游，发现和搜集信息。它常常是一个计算机程序，日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息，同时因为互联网上的信息更新很快，所以还要定期更新已经搜集过的旧信息，以避免死连接和无效连接。目前有两种搜集信息的策略：一是从一个起始URL集合开始，顺着这些URL中的超链（Hyperlink），以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL，但常常是一些非常流行、包含很多链接的站点（如Yahoo！）。二是将Web空间按照域名、IP地址或国家域名划分，每个搜索器负责一个子空间的穷尽搜索。　　索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种：客观项与文档的语意内容无关，如作者名、URL、更新时间、编码、长度、链接流行度（Link Popularity）等等；内容索引项是用来反映文档内容的，如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项（或称短语索引项）两种。单索引项对于英文来讲是英语单词，比较容易提取，因为单词之间有天然的分隔符（空格）；对于中文等连续书写的语言，必须进行词语的切分。在搜索引擎中，一般要给单索引项赋与一个权值，以表示该索引项对文档的区分度，同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。　　检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。　　　　3、从搜索引擎各部分探讨网站设计　　3.1索器　　在搜索器中必须有一个强大的网页收集器（称为“网络蜘蛛”），一个优秀的搜索引擎，需要不断的优化网络蜘蛛的算法，提升其性能。　　网络蜘蛛即Web Spider，是通过网页的链接地址来寻找网页，从网站的某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样循环下去，直到把这个网站所有的网页都抓取完为止。　　在抓取网页的时候，网络蜘蛛一般有两种策略：