搜索引擎如何识别伪原创的.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎如何识别伪原创的

搜索引擎如何识别伪原创的 伪原创一般出现在一些个人站长和一些中小型网站上,因为他们不可能花出大量的时间去原创文章,但是又为了能提供更新量,所以就去找很多文章进行修改用伪原创来满足网站更新的需求。甚至到后来都出现了一些伪原创的工具,这些工具的做法无非就是替换一些关键词,比如把:怎么,替换成如何,把搜索替换成查询,检索,把大概替换成大约等等。 我们不能否认有些网站确实是靠伪原创发展起来了,但是真正想靠伪原创把一个网站规模做大,其实是件很难的事情,有可能某一天,你的收录突然为0,或流量突然为0了。 那么搜索引擎是如何识别原创和伪原创的呢?我这里总结了几点和别人不同的观点拿出来和大家分享一下。 首先来说一下我们公司正在开发的一个搜索引擎流程,为了更简化的说明我只把他分成三个大部分,具体处理细节我们暂不讨论,这三部分分别是:蜘蛛程序,预处理程序,索引程序。 蜘蛛程序 这个相信大家都懂,互联网的最基本元素是网页,网页与网页之间有链接,所以就形成了一个巨大的网络,有一种程序会从一个起点出发无限次的打开链接把所打开的网页保存到本地服务器,然后再无限次的打开网页,永无休止,这种程序我们叫网络爬虫程序,也叫网络蜘蛛。 其实写一个蜘蛛程序是很简单的,在我所熟知的任何一门语言里,从打开链接到请求到返回的html数据加起来的代码基本都不会超过十行,但是这里面设计到一些逻辑问题,比如一些网站里的相对地址,以及外部链接,这些都要在蜘蛛端分析抓取,因为蜘蛛在定向抓取的时候会先以网站为基本单位,等本网站的网页都抓取完毕之后再打开所连接的外部网页进行抓取,所以说蜘蛛在碰到外部连接的时候会把一些信息存储到本地数据库中,以便处理完网站信息之后再进行下个单元的抓取另外这个信息也会在预处理的时候用来计算网站权重。 比如我们以A网站的首页做为蜘蛛入口点,这时候程序会把A网站首页的html代码全部请求回来,然后通过正则表达式提取所有的页面链接(图片以及多媒体链接)然后将所有的链接拿出来依次打开抓取内容,我们可以这样来表示: 循环开始 打开连接--抓取数据--提取连接--存储 循环结束 预处理程序 这个程序是我认为在搜索引擎里最核心的程序,也是最复杂的程序,基本所有的计算分析处理工作全是在这个程序里完成的,很多SEOer们在研究搜索引擎的时候只研究一些表面现象,只是根据自己的猜测搜索引擎可以会有哪些判断,实不知这里有着这样一套复杂且有着高度精密逻辑的程序在这里分析每一个网页的结构。 预处理所要做的工作是分析网页的结构,解读每一个标记每一段话的意思,分析出网页中每一部分的功能,一般我们会将蜘蛛抓取下来的数据以独立文件的方式存储到硬盘中(我们公司的做法是以xml方式存储,这样更便于分析结构,相信其它公司也都差不多),例如这是一个论坛的贴子页面,还是一个列表页面,这是一个商品的具体介绍页面,还是一个cms系统的文章页面,这都是需要分析的,除了这些以外,还需要分析网页中哪部分是标题,哪部分是价格,哪部分是文章的具体内容,哪部分是产品介绍,例如我们看到这样的结果: 从这个情况来看搜索引擎显然是知道这样的信息:这个页面是论坛的贴子页面,有十六个贴子,并且这十六个贴子都是一个人发的,并且还知道具体的时间。 这是谷歌上的结果,我们再来看一下百度的: 可以看出,百度也是可以分析这个页面结构的,而且具体的每一个回贴都可以分析的得出来,但是相比谷歌而言他没有分析出有几个作者(发贴人),我不知道是没有分析出来,还是分析出来没有展示,我更相信是后者。 这里有一个重要的说明:这个网页的html代码是我自己亲手编写的,并不是用的开源discuz这种论坛,所以说这种网页结构是一种对搜索引擎来说全新的,并非大众的。 其实在预处理过程中需要计算的东西非常之多,比如权重的计算,这是谷歌pr值的计算方法: 谷歌认为如果A页面连接了B页面,那么就说明A给B投了一票,也就是完成了一次权重的传递,权重越高的页面传递的权重就越高,同样这个结果也会影响到网页在索引中的排名,也就是说我们在预处理中需要对网页进行分析整理计算归档等等操作,而最后建立的索引只是为了方便查询而已。 去噪点 搜索引擎在把一个网页里的html标记都去掉之后就会剩下网页中所有的内容(文字),这时候会把一些共用信息去除掉,如一些网页的左侧内容是全站通用的,这样我们只需要分析一次就够了,在得到内容页的时候就会依照特性把共用的东西去除掉,还有头尾共公信息等。这样所提炼出来的数据就是每个网页中不同的内容了,也就是这个网页中最重要的部分。 很多人以为分析到这一步就完了,其实不是的,

文档评论(0)

f8r9t5c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档