logo

您所在位置网站首页 > 海量文档  > 教学课件 > 大学课件

搜索引擎的原理要点解析.ppt 37页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
相关性计算 关键词距离 切分后的关键词完整匹配出现,说明与搜索词最相关。比如搜索“减肥方法”时,页面上连续完整出现“减肥方法”四个字是最相关的。如果“减肥”和“方法”两个词没有连续匹配出现,出现的距离近一些,也被搜索引擎认为相关性稍微大一些。 链接分析及页面权重 除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。 链接分析还包括了链接源页面本身的主题,锚文字周围的文字等。 排名过滤及调整 计算相关性后,大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。典型的例子是百度的11位,Google的负6、负30、负950等算法。 排名显示 所有排名确定后,排名程序调用原始页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。 标题、描述字数限制 百度标题显示最多不超多30个中文字符,谷歌显示65个英文字符,中文32个字符。超出字数限制将无法显示,以省略号代替 百度描述显示最多不超多77个中文字符,谷歌显示165个英文字符,超出字数限制将无法显示,以省略号代替 网页快照 网页快照,即是“网页缓存” 每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。当您遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览 页面文本内容。百度快照只会临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索 引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。 搜索缓存 如果每次搜索都重新处理排名可以说是很大的浪费。搜索引擎会把最常见的搜索词存入缓存,用户搜索时直接从缓存中调用,而不必经过文件匹配和相关性计算,大大提高了排名效率,缩短了搜索反应时间 查询及点击日志 搜索用户的IP地址、搜索的关键词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志。这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。 * * 让数字营销连接商业梦想 搜索引擎三大要素 讲师:steven 2012-1-6 让数字营销连接商业梦想 搜索引擎三大要素 搜索引擎的工作过程大体上可以分成三个阶段 爬行和抓取 爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。 什么是蜘蛛? 如何跟踪链接? 什么样的页面才能吸引蛛蛛? 爬行时的复制内容检测 什么是文件存储? 什么是蜘蛛 蜘蛛 1、 是一组运行在计算机的程序,在搜索引擎中负责抓取时新的且公共可访问的WEB网页,图片和文档等资源,这种抓取的过程为通过下载一个网页,分析其中的链接,继而漫游到其他链接指向的网页,循环往复。 2、蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行 和抓取速度,都使用多个蜘蛛并发分布爬行。? 3、蜘蛛访问任何一个网站时,都会先访问网站根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。 主流蜘蛛列举 Baiduspider+(+/search/spider.htm) 百度蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp China; /help.html) 雅虎中国蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; /help/us/ysearch/slurp) 英文 雅虎蜘蛛 Mozilla/5.0 (compatible; Googlebot/2.1; +/bot.html) Google 蜘蛛 msnbot/1.1 (+/msnbot.htm) 微软 Bing 蜘蛛 ·Sogou+web+robot+(+/docs/help/webmasters.htm#07) 搜狗蜘蛛 Sosospider+(+/webspider.htm) 搜搜蜘蛛 蜘蛛抓取-谷歌管理员工具 跟踪链接 为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。 整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着 链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556