优就业SEO教程-百度识别原创文章算法的具体细节.docVIP

下载本文档

3
0
约 4页
2017-05-29 发布于重庆
举报

优就业SEO教程-百度识别原创文章算法的具体细节.doc

优就业SEO教程-百度识别原创文章算法的具体细节据百度工程师称，百度原创识别系统，在百度大数据的云计算平台上开展，能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先，通过内容相似程度来聚合采集和原创，将相似网页聚合在一起作为原创识别的候选集合;其次，对原创候选集合，通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后，通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。同时LEE表示，通过实验以及真实线上数据，百度原创识别“起源”算法已经取得了一定的进展，在新闻、资讯等领域解决了绝大部分问题。下面简单介绍一下原创文章算法的具体细节。 ? ? 一、搜索引擎为什么要重视原创 1.1 采集泛滥化来自百度的一项调查显示，超过80%的新闻和资讯等都在被人工转载或机器采集，从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测，甚至高校图书馆发的催还通知都有站点在做机器采集。可以说，优质原创内容是被包围在采集的汪洋大海中之一粟，搜索引擎在海中淘粟，是既艰难又具有挑战性的事情。 1.2 提高搜索用户体验数字化降低了传播成本，工具化降低了采集成本，机器采集行为混淆内容来源降低内容质量。采集过程中，出于无意或有意，导致采集网页内容残缺不全，格式错乱或附加垃圾等问题层出不穷，这已经严重影响了搜索结果的质量和

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

优就业SEO教程-百度识别原创文章算法的具体细节.docVIP