- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
采集站的逆襲之路
采集站的逆袭之路
刘哲
#1
#2
#3
#4
大内容来源
内容整合
逆袭机遇
用户体验
目
录
案例
本次分享内容将以问他网(7)贯穿始终
10
35
1月份
4月份
6月份
8月份
30
500
#1
大内容来源
大内容来源
01
购买内容
购买已经商业化的数据
03
人工编辑内容
安排编辑发内容
02
用户产生内容(UGC)
社区、问答等产品形态
04
采集内容
通过各工具、程序等采集海量内容
采集后数据处理
结构化
入库
发布
展示
更新
维护
采集数据处理流程
结构化:分类、分词、标签
入库:一次性导入、连续入库
发布:去重后发布(爬虫与用户双标准)
展示:展示位置,展示规则
更新:更新频率,更新规则
维护:定期检查未被抓取的内容
A
火车头
B
PY程序
C
Scrapy
采集工具介绍
#2
内容整合
专题
关键词
标签
相关
A
基于lucene做的文档内容相似度,根据相似度做相关推荐,70%-80%相似度进行推荐
B
基于自有行业词库做基库,根据基库做分词并抽取标签
C
整理搜索关键词,分阶段做不同
D
对整理过的关键词做细分、扩展做专题内容,并聚合全部内容,包括采集,ugc
内容整合
专题做法
专题
1
2
3
细分主题内容
专题细分主题
专题主题
#3
逆袭机遇
1
魔方格
答案可见
百度知道有合作
3年左右
2
问他网
答案不可见
没有合作
1年左右
3
菁优网
答案限制性开放
与百度知道有合作
5年左右
行业SEO流量排名
2014-10至2015-2
玩转爬虫
大量分布式爬虫不设置的访问,造成网站性能急剧下滑甚至瘫痪
攻击网站
采集任何想要的数据
采集数据
#4
用户体验
SEO流量骤降
90%+
1、收录下滑95%
2、爱站排名关键词85%
3、流量下滑90%
?????????原因
1、分析竞品网站的是否有变化
2、分析页面内容是否存在过度优化(关键词密度、页面内容质量)
3、网站是否存在异常(链接、稳定性)
4、搜索用户的跳出率及体验
原因分析
针对百度爬虫开放全部答案,提高页面内容完善性和质量。同时降低可读性,防止竞品抓数据。
清空页面内的keywords内容,将相关推荐的试题相似度下降至60%
针对来源是百度的用户做输入验证码可查看答案的功能,降低用户看答案门槛,同时与竞品相比提升页面停留时间。
提升搜索访问用户体验
2个月后效果
95%+
1、搜索用户跳出率由74%降为58%
2、页面停留时间翻了一倍
3、SEO各项数据全部恢复到降权前95%以上。
THANKS
谢谢聆听
原创力文档


文档评论(0)