- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
相关性计算 关键词距离 切分后的关键词完整匹配出现,说明与搜索词最相关。比如搜索“减肥方法”时,页面上连续完整出现“减肥方法”四个字是最相关的。如果“减肥”和“方法”两个词没有连续匹配出现,出现的距离近一些,也被搜索引擎认为相关性稍微大一些。 链接分析及页面权重 除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。 链接分析还包括了链接源页面本身的主题,锚文字周围的文字等。 排名过滤及调整 计算相关性后,大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。典型的例子是百度的11位,Google的负6、负30、负950等算法。 排名显示 所有排名确定后,排名程序调用原始页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。 标题、描述字数限制 百度标题显示最多不超多30个中文字符,谷歌显示65个英文字符,中文32个字符。超出字数限制将无法显示,以省略号代替 百度描述显示最多不超多77个中文字符,谷歌显示165个英文字符,超出字数限制将无法显示,以省略号代替 网页快照 网页快照,即是“网页缓存” 每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。当您遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览 页面文本内容。百度快照只会临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索 引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。 搜索缓存 如果每次搜索都重新处理排名可以说是很大的浪费。搜索引擎会把最常见的搜索词存入缓存,用户搜索时直接从缓存中调用,而不必经过文件匹配和相关性计算,大大提高了排名效率,缩短了搜索反应时间 查询及点击日志 搜索用户的IP地址、搜索的关键词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志。这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。 * * 让数字营销连接商业梦想 搜索引擎三大要素 讲师:steven 2012-1-6 让数字营销连接商业梦想 搜索引擎三大要素 搜索引擎的工作过程大体上可以分成三个阶段 爬行和抓取 爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。 什么是蜘蛛? 如何跟踪链接? 什么样的页面才能吸引蛛蛛? 爬行时的复制内容检测 什么是文件存储? 什么是蜘蛛 蜘蛛 1、 是一组运行在计算机的程序,在搜索引擎中负责抓取时新的且公共可访问的WEB网页,图片和文档等资源,这种抓取的过程为通过下载一个网页,分析其中的链接,继而漫游到其他链接指向的网页,循环往复。 2、蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行 和抓取速度,都使用多个蜘蛛并发分布爬行。? 3、蜘蛛访问任何一个网站时,都会先访问网站根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。 主流蜘蛛列举 Baiduspider+(+/search/spider.htm) 百度蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp China; /help.html) 雅虎中国蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; /help/us/ysearch/slurp) 英文 雅虎蜘蛛 Mozilla/5.0 (compatible; Googlebot/2.1; +/bot.html) Google 蜘蛛 msnbot/1.1 (+/msnbot.htm) 微软 Bing 蜘蛛 ·Sogou+web+robot+(+/docs/help/webmasters.htm#07) 搜狗蜘蛛 Sosospider+(+/webspider.htm) 搜搜蜘蛛 蜘蛛抓取-谷歌管理员工具 跟踪链接 为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。 整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着 链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结
您可能关注的文档
- 手机标志设计含义要点解析.ppt
- 数字图像处理第五章ME和MC技术要点解析.ppt
- 手机测试体系初步认识要点解析.ppt
- 数字图像处理-第一章要点解析.ppt
- 万方医学网使用方法与检索技巧介绍-详版要点解析.ppt
- 手机单兵解决方案要点解析.ppt
- 万古人力资源管理系统要点解析.ppt
- 数字图像处理基础要点解析.ppt
- 手机功能检验培训教材要点解析.ppt
- 数字图像处理技术要点解析.ppt
- 山东庆云县财金发展投资有限公司招聘笔试题库及答案详解(最新).docx
- 预防传染病教育1000作文.pptx
- 山东庆云县财金发展投资有限公司招聘笔试题库及答案详解(各地真题).docx
- 企业消防培训课件视频.pptx
- 山东庆云县财金发展投资有限公司招聘笔试题库及答案详解(历年真题).docx
- 山东庆云县财金发展投资有限公司招聘笔试题库及答案详解(典优).docx
- 山东庆云县财金发展投资有限公司招聘笔试题库含答案详解(满分必刷).docx
- 企业消防培训课件获取途径.pptx
- 预防疾控微生物检验技术(正高)细菌及检验题库.pptx
- 山东庆云县财金发展投资有限公司招聘笔试题库含答案详解(基础题).docx
文档评论(0)