16.搜索引擎营销原理课案.pptVIP

下载本文档

10
0
约2.32千字
约 10页
2017-05-26 发布于湖北
举报
版权申诉

16.搜索引擎营销原理课案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

16.搜索引擎营销原理课案

搜索引擎原理 1．了解搜索引擎的工作原理的大致流程 2．了解搜索引擎如何抓取信息 3．了解搜索引擎对于数据信息的处理过程 4．了解搜索引擎的查询索引服务学完本节后学员应该了解搜索引擎的工作原理，并且能够根据搜索引擎排名算法规则做好SEO工作。一、学习目标二、学习内容搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件，它遍历Web空间，能够扫描一定IP地址范围内的网站，并沿着网络上的链接从一个网页到另一个网页，从一个网站到另一个网站采集网页资料。 1．爬行和抓取 ①.搜集新出现的网页; ②.搜集那些在上次搜集后有改变的网页; ③.发现自从上次搜集后已经不再存在的网页，并从库中删除。搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库爬行和抓取搜索快照更新爬行和抓取抓取问题汇集搜索引擎蜘蛛抓取层级（URL，table）为什么快照总是更新我们的首页？为什么栏目页更新总比文章页快？怎么才能让搜索引擎更新我的文章页快照？爬行和抓取 2．数据处理（预处理） ①.关键词提取（文字提取——中文分词）不同标签里面的关键词权重不同 keywords和Description权重低，参照物性质 body里面的关键词索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。数据处理 ②.重复或转载页面的消除转载的是内容，只是网页可识别内容的一部分。去重，因为没有完全相同的页面，所以非常相似的网页被去掉。网页相似度数据处理 ③.链接分析链接计算分析：计算网页之间的链接流动信息，每个页面上多少导出链接、导入链接，链接使用什么锚文本，这些链接指向关系形成了网站和页面的链接权重。同一网站不同层级页面的权重不同首页权重最高，栏目页次之，文章页最低想让哪里的权重增高，放到首页数据处理 ④.网页重要程度计算网页：转载、流量、时间、更新、链入、pr、专业性（关键词单一）、重要标签的应用、关键词密度、信噪比、网页层级、网页架构、代码的可识别、连接别名、文件形式网站：网页所有的内容、架构、相似度、相关性数据处理 3．查询服务查询服务 ①.查询方式和匹配先整体精确匹配?再拆分精确匹配：搜索引擎按照用户输入的词序进行搜索结果显示。单页面优化，网页权重比较低；拆分匹配：搜索引擎按照拆分之后关键词进行加权平均的结果显示，热词或者一个网站某个词权重高也会出现拆分匹配。高权重会拆分； ②.结果排序 ——数据处理 ③.文档摘要 ——搜索“北京公交查询” 3．查询服务查询服务分词——去重——链接分析——权重计算搜索引擎有三大类服务器：抓取服务器、数据处理服务器、检索服务器、 * 搜索引擎服务器分为:抓取、数据处理、检索显示. * 搜索结果的排序是按照权重从高到低。 * 抓取网站的蜘蛛是有分工，有些专门放风（访问状态200，数据包大小为0 类似于： 200 0 0），有些专门负责抓取（数据包不为0）。有些蜘蛛抓取首页、栏目页，有些专门抓取内容页。 * 搜索引擎分词，首先考察特殊名词(世界性名人、地名)，接下来考察用户搜索比较多的热门词(同音异形词)，最后按照一般词细分(大辞典)；谷歌趋向于拆分之后再搜索；百度趋向于整体搜索，没有结果了再拆分； * 网页相似度：50%以内属正常、超过50%收录了不显示、70%不收录；/similarchecker.php * * 流量：能够被搜索引擎统计到的流量（如：百度百科、贴吧、百度搜索等） * 先整体精确匹配?再拆分 1、精确匹配：搜索引擎按照用户输入的词序进行搜索结果显示。单页面优化。网页权重比较低； 2、拆分匹配：搜索引擎按照拆分之后关键词进行加权平均的结果显示，热词或者一个网站某个词权重高也会出现拆分匹配。高权重会拆分； * 文档摘要：优先抓取description，没有description就随机抓取文字。没有meta-description搜索引擎会从网页中抓取1-3段含有关键词的部分进行匹配。优先抓取导航、第一段、每段第一句 * 分词——去重——链接分析——权重计算搜索引擎有三大类服务器：抓取服务器、数据处理服务器、检索服务器、 * 搜索引擎服务器分为:抓取、数据处理、检索显示. * 搜索结果的排序是按照权重从高到低。 * 抓取网站的蜘蛛是有分工，有些专门放风（访问状态200，数据包大小为0 类似于： 200 0 0），有些专门负责抓取（数据包不为0）。有些蜘蛛抓取首页、栏目页，有些专门抓取内容页。 * 搜索引擎分词，首先考察特殊名词(世界性名人、地名)，接下来考察用户搜索比较多的热门词(同音异形词)，最后按照一般词细分(大辞典)；谷歌趋向于拆分之后再搜索；百度趋向于整体搜索，没有结果了再拆分； * 网页相似