不懂搜索引擎原理SEOer就是在裸奔.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不懂搜索引擎原理的 SEOer就是在裸奔 数据搜集 即数据的搜集阶段,将网页从浩如瀚海的互联网世界搜集 到自己的数据库中进行存储 1、抓取维护策略 面对大量需要处理的数据,很多问题需要事先考虑好。比 如是"即时抓取"数据还是"事先抓取"?在对数据进行维护时是 "定期抓取"(定期一次深度大抓取,替代原有的数据)还是"增 量抓取"(以原有数据为根基,进行新旧交替)? 2、链接跟踪 我们都知道,蜘蛛是顺着链接爬行和抓取页面的。如何快 速抓取到对用户来说相对重要的信息以及达到广阔的覆盖无 疑是搜索引擎需要重点考虑的问题。 先来说第一个,怎么抓取到重要的信息 想要知道这个,首页要明白人们是怎么样主观去判断一个页 面是否重要的(自己先思考下)。其实无外乎以下几种情况: 网页有历史权重积累(域名等时间较长、质量高、资格老)、 很多人会提到这个页面(外链指向)、很多人会引用这个页面 (转载或者镜像)、这个页面便于用户快速浏览(层级较浅)、经 常有新的内容出现(更新)等等 而在链接跟踪阶段,其实能得到的信息只有"这个页面便 于用户快速浏览(层级较浅)",其它信息还未获取 对于信息的覆盖,其实就是蜘蛛在跟踪链接时的两个策略: 深度抓取与广度抓取 用屁股想一下也知道,广度抓取有助于获取到更多的信息 深度抓取有助于得到更全面的信息。搜索引擎蜘蛛在抓取数据 时,通常会两种方式都采用,但是想比较来说,广度抓取要多 于深度抓取。 3、地址库 搜索引擎在建立初期,必须是要有一个人工录入的种子库 的,否则蜘蛛将会在进行连接跟踪时无从下手。顺着这些种子 库,蜘蛛可以发现更多的链接 当然,多个搜索引擎都会放出一个页面的提交入口,以便 于站长将站点进行提交 不过值得一提的是,搜索引擎更喜欢自己发现的链接。 4、文件存储 链接跟踪完毕,需要将跟踪到的信息进行存储。存储的对 象,第一是url,第二是页面内容(文件大小、最后一次更新时 间、ht状态码、页面源代码等等) 关于ur,由于上次看到一个泛端口作弊的站点,这里简 单的提一下。一个u是由传输协议、域名、端口、路径、文 件名等几部分组成的。 预处理【索引】 数据抓取完毕,就需要进行预处理了(也有很多人喜欢把 步叫做索引)。主要会从提取文字、分词,建立索引,链 接分析等几个方面来进行。 1、提取文字 很好理解的一部,将源代码中的文字提取出来。当然需要 注意的是,这里面会包括meta信息以及一些替代文字(例如at 标签)。 2、分词 每到这一步,总是想感叹下汉字的博大精深。啊!啊!啊! 感叹完毕,继续走起 分词是中文特有的一个步骤,即根据句子说要表达的意思 将正文进行拆分。通常情况下,分词会有基于词典以及统计学 两种方式。

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档