16.搜索引擎营销原理课案.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
16.搜索引擎营销原理课案

搜索引擎原理 1.了解搜索引擎的工作原理的大致流程 2.了解搜索引擎如何抓取信息 3.了解搜索引擎对于数据信息的处理过程 4.了解搜索引擎的查询索引服务 学完本节后学员应该了解搜索引擎的工作原理,并且能够根据搜索引擎排名算法规则做好SEO工作。 一、学习目标 二、学习内容 搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。 1.爬行和抓取 ①.搜集新出现的网页; ②.搜集那些在上次搜集后有改变的网页; ③.发现自从上次搜集后已经不再存在的网页,并从库中删除。 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库 爬行和抓取 搜索快照更新 爬行和抓取 抓取问题汇集 搜索引擎蜘蛛抓取层级(URL,table) 为什么快照总是更新我们的首页? 为什么栏目页更新总比文章页快? 怎么才能让搜索引擎更新我的文章页快照? 爬行和抓取 2.数据处理(预处理) ①.关键词提取(文字提取——中文分词) 不同标签里面的关键词权重不同 keywords和Description权重低,参照物性质 body里面的关键词 索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。 数据处理 ②.重复或转载页面的消除 转载的是内容,只是网页可识别内容的一部分。 去重,因为没有完全相同的页面,所以非常相似的网页被去掉。 网页相似度 数据处理 ③.链接分析 链接计算分析:计算网页之间的链接流动信息,每个页面上多少导出链接、导入链接,链接使用什么锚文本,这些链接指向关系形成了网站和页面的链接权重。 同一网站不同层级页面的权重不同 首页权重最高 ,栏目页次之,文章页最低 想让哪里的权重增高,放到首页 数据处理 ④.网页重要程度计算 网页:转载、流量、时间、更新、链入、pr、专业性(关键词单一)、重要标签的应用、关键词密度、信噪比、网页层级、网页架构、代码的可识别、连接别名、文件形式 网站:网页所有的内容、架构、相似度、相关性 数据处理 3.查询服务 查询服务 ①.查询方式和匹配 先整体精确匹配?再拆分 精确匹配:搜索引擎按照用户输入的词序进行搜索结果显示。单页面优化,网页权重比较低; 拆分匹配:搜索引擎按照拆分之后关键词进行加权平均的结果显示,热词或者一个网站某个词权重高也会出现拆分匹配。高权重会拆分; ②.结果排序 ——数据处理 ③.文档摘要 ——搜索“北京公交查询” 3.查询服务 查询服务 分词——去重——链接分析——权重计算 搜索引擎有三大类服务器:抓取服务器、数据处理服务器、检索服务器、 * 搜索引擎服务器分为:抓取、数据处理、检索显示. * 搜索结果的排序是按照权重从高到低。 * 抓取网站的蜘蛛是有分工,有些专门放风(访问状态200,数据包大小为0 类似于: 200 0 0),有些专门负责抓取(数据包不为0)。有些蜘蛛抓取首页、栏目页,有些专门抓取内容页。 * 搜索引擎分词,首先考察特殊名词(世界性名人、地名),接下来考察用户搜索比较多的热门词(同音异形词),最后按照一般词细分(大辞典); 谷歌趋向于拆分之后再搜索;百度趋向于整体搜索,没有结果了再拆分 ; * 网页相似度:50%以内属正常、超过50%收录了不显示、70%不收录;/similarchecker.php * * 流量:能够被搜索引擎统计到的流量(如:百度百科、贴吧、百度搜索等) * 先整体精确匹配?再拆分 1、精确匹配:搜索引擎按照用户输入的词序进行搜索结果显示。单页面优化。网页权重比较低; 2、拆分匹配:搜索引擎按照拆分之后关键词进行加权平均的结果显示,热词或者一个网站某个词权重高也会出现拆分匹配。高权重会拆分; * 文档摘要:优先抓取description,没有description就随机抓取文字。没有meta-description搜索引擎会从网页中抓取1-3段含有关键词的部分进行匹配。优先抓取导航、第一段、每段第一句 * 分词——去重——链接分析——权重计算 搜索引擎有三大类服务器:抓取服务器、数据处理服务器、检索服务器、 * 搜索引擎服务器分为:抓取、数据处理、检索显示. * 搜索结果的排序是按照权重从高到低。 * 抓取网站的蜘蛛是有分工,有些专门放风(访问状态200,数据包大小为0 类似于: 200 0 0),有些专门负责抓取(数据包不为0)。有些蜘蛛抓取首页、栏目页,有些专门抓取内容页。 * 搜索引擎分词,首先考察特殊名词(世界性名人、地名),接下来考察用户搜索比较多的热门词(同音异形词),最后按照一般词细分(大辞典); 谷歌趋向于拆分之后再搜索;百度趋向于整体搜索,没有结果了再拆分 ; * 网页相似

文档评论(0)

jiayou10 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档