- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章2 搜索擎排名和更新
搜索引擎抓取页面简单流程 网站如何加入搜索引擎域名列表 利用搜索引擎提供的网站登录入口,向搜索引擎提交网站域名。例如Google的登录地址:/addurl/?hl=zh-CNcontinue=/addurl百度的登录地址:/search/url_submit.html 通过与外部网站建立连接关系,向搜索引擎提交网站域名,优质连接数量越多,越容易被搜索引擎收录。 搜索引擎收录网站原理 探测器利用超链接进行对网页的访问,探测器获取页面的数据有限,大约100K左右,所以网页不宜太大,关键词应该尽量靠前 大的页面应尽量拆分成若干小的网页:网页容易被探测器抓取;建立合理的网站内部链接;每个页面可以集中添加关键词;节省服务器带宽;方便浏览者阅读。 搜索引擎收录页面的工作原理 搜索引擎收录页面方式 页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出相对重要的信息。页面收录方式的制定取决于搜索引擎对网站结构的理解。收录方式主要有以下三种: 广度优先:从较浅层次开始抓取页面,直至抓取完同层次的所有页面后才进入下一层。——所以,重要信息要放到较浅层次上。 深度优先:首先跟踪浅层页面中的某一链接逐步抓取深层页面,直至抓取完最深层的页面后才返回浅层页面再跟踪其另一链接继续向深层页面抓取。——利用这种方式,有利于抓取到网站中较为隐蔽、冷门的页面。 用户提交:网站管理员将页面URL按照制定格式制作成文件,提交给搜索引擎,搜索引擎即可通过该文件对网站中的页面进行抓取及更新。——这种方式大大提高了搜索引擎抓取页面的效率及质量,对于网站本身来说,也提高了网站页面被收录的数量。 如何避免重复性收录 转载页面:是指与原创页面正文内容相同或相近的页面。(正文内容是指通过算法去除掉辅助信息的内容),当内容相似度超过一定标准,即可判定为转载页面。然后根据页面权重、最后修改时间等因素来判断是原创页面还是转载页面。 如何避免重复性收录 镜像页面:内容完全相同的页面互为镜像页面。通过将页面分为N个区域进行比较,如果N个区域的内容完全一样,则认为这些页面互为镜像页面。 网页维护方式 定期抓取:周期性抓取,即搜索引擎周期性地对网站中已收录的页面进行全面更新。更新时,用抓取到的新页面替换原有的旧页面,删除不存在的页面,存储新发现的页面,主要针对的是全部已经收录的页面,周期较长。 增量抓取:通过对已抓取的页面进行监控,实现对页面的更新及维护。并非针对所有已抓取的页面,只针对重要页面进行定时监控。 分类定位抓取:是指根据页面的分类或性质而制定相应更新周期的页面监控方式。 第二章 搜索引擎排名和更新 2.1 搜索引擎收录网站原理 探寻蜘蛛和探寻机器人yahoo创办初期——人工搜集新网页;目前采用探测程序——crawler、spider、robot等。 URL是页面的入口,域名是网站的入口,搜索引擎搜索程序通过域名进入网站,从而展开对网站页面的抓取。所以,搜索引擎要在互联网上抓取信息的首要任务是建立一个足够大的域名列表,通过域名进入相应的网站。 对于网站来说,要想被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。 URL列表 抓取页面 原始页面 提取URL URL列表 抓取页面 提取URL 内部URL 域名URL 存储原始页面 A-1 A-2 A-3 A-4 B-1 B-2 B-3 B-4 A-1 A-2 A-3 B-1 B-2 B-3 Google的Freshbot和Deepbot Google的两个探测器:深度探测器和刷新探测器 深度探测器每月出击一次,受访内容在主索引中;刷新探测器持续不断的发现新的内容,发现后加入到刷新探测器的名单中进行访问 刷新探测器和Google主要的索引一起提供搜寻结果,新的信息可能很快出现在搜索结果中,然后就消失,直至一两个月后在Google主索引中重新浮现;已经存在与主索引中的网页,内容更新后会出现几天,然后会退回到原来的版本,直到深度探测器来访问这一页。 Google的操作模式:收集—采编/索引—反馈的工作程序 抓取状态:派出探测器到互联网上搜集网页 网页仓库:搜索来的网页集中在一个地方储藏,等候索引处理 索引整理:将网页分门别类,进行压缩,等候进行索引编类 索引状态:将压缩后的网页编目在不同的索引之下 问询状态:将用户询问所用的白话变成搜索引擎能懂的计算机语言,来咨询各个索引求得相关答案。 排名状态:搜索引擎将相关答案根据一定的标准以单子的形式排列给用户,最好的答案排在最前面。 2.2 搜索引擎如何提供搜索结果——网页分析 搜索引擎的信息索引工作:将搜索回来的原始网页信息进行整理、编制索引,放在相应的索引表签下,等待用户询问,反馈有价值的信息给用户,这也是对网站质量的评判过程。 网页 正文信息 关键词列表
您可能关注的文档
最近下载
- 地球生命力报告2020:扭转生物多样性丧失的曲线~摘要.pdf VIP
- 村和社区两委换届培训.pptx VIP
- 【校本教材】初中音乐校本教材.docx VIP
- DB11T 555-2015 民用建筑节能现场检验标准.pdf VIP
- NADCA北美压-铸协会技术标准.pdf
- ISO 3506-2-2020 紧固件 耐腐蚀不锈钢紧固件的机械性能 第2部分:具有规定组别和性能等级的螺母(中文).pdf
- 糖尿病足溃疡中医外治法专家共识.pdf VIP
- 四象限法则培训.pptx
- 增删诸脉指法主病29脉.doc VIP
- 自考《马克思主义基本原理概论》复习资料及自考《中国现代文学史》复习资料大全.doc VIP
文档评论(0)