- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从无到有建立一个影视剧情网站的心得体会240.
想了解更加精彩的内容请添加我们的交流QQ群:131716631 验证:学
习,对加群的伙伴我们将免费赠送3套网络营销实战课程。
从无到有建立一个影视剧情网站的心得体会
从无到有建立一个影视剧情网站的心得体会
从从无无到到有有建建立立一一个个影影视视剧剧情情网网站站的的心心得得体体会会
影视剧情介绍方面的网站属于数量泛滥,但是缺乏精品的一类。
内容原创的网站不多,更多是收集各地分散的影视资源加以汇总。尤其是电视
剧介绍,经常是分集连载方式,这就使得站长需要不断关注正在更新的剧集,
一集一集补充上去,难以一步到位。维护影视剧情网站更是偷懒不得,必须保
持更新,否则内容很快过时。
本人运行影视剧情站一段时间就遇到这个问题,一部电视剧的介
绍前前后后更新多次,尤其是热播剧,不断追加内容直至完整。
建站初期为了尽快充实全站内容,需要收集整理大量的影视介绍
文字,除了人工整理编辑之外,也尝试过一点内容采集,然后进行二次编辑修
改,这样就可以为用户提供足够丰富完整的电影与电视剧内容,这个过程也是
费了点头脑,简要叙述一下吧。
浏览学习大量同类网站以后,发现tvmao 在影视剧情搜索方面的
排名非常好,毕竟是百度 open 的名站,内容也相当丰富,二话不说,先从
tvmao 借鉴些内容。
tvmao 的影视剧情部分算是比较容易采集,页面模板固定、正文
内容没有干扰,看起来没有任何防采集处理。实际采集过程略微一波三折,总
体说来采集障碍不大。
说下采集tvmao 的经过,我的网站使用美国空间,tvmao 应该是
浙江电信的空间。第一阶段我是直接在国外的空间上运行采集工具(远程采
集),最直接的采集然后数据入库,因为国外连国内,速度不算很快,不过还比
较稳,大约采集了一两千部电视剧剧情,遭遇第一次杯具:服务器的 IP 被
tvmao 封了。
服务器IP 被对方封禁以后迟迟不见解封,应该是 tvmao 对这个
IP 永久屏蔽了,更换服务器 IP 肯定是行不通,总不能封一次换一个,于是想到
本地执行采集,然后远程写入服务器的数据库,前提是数据库允许远程访问。
随后的实践证明这种采集(本地采集+远程入库)方案比较可行,但是也会有点遗
憾,因为我的服务器在国外,而我在国内采集到的内容要远程写入国外的数据
库,会发现远程写入的速度比较慢,因为写入过程实际包括了查询、插入、更
新、删除的多个数据库操作过程,这些过程都通过远程访问执行就导致整个采
集过程变慢。更严重的是远程操作数据库过程中不定时出现数据库连接进程超
时之类的问题,导致写入失败。
如果我的服务器在国内,访问速度够快,也许上述方案可行,先
留作备用方案吧。
静下心来又学了一点采集原理,实施了第三套方案(远程采集
+http 代理),还是在国外的服务器上执行采集,只是对采集工具做了一点伪
装:使用 http 代理,伪造文件头、访问来路等等。随后的采集过程中发现,真
正起作用的是 http 代理,在采集工具中设置 http 代理,选用电信 IP 的代理,
因为 tvmao 的网站使用电信空间,这样采集下来发现速度比第一套无代理的采
集更快,感觉真是痛快。
第三套方案采集一两千部电视剧以后又发现问题,http代理的 IP
也会被 tvmao 屏蔽,但并非永久屏蔽,猜测应该是 tvmao 的网站程序作了一
些处理,就是发现一个 IP 短时间内访问的页面太多,就会屏蔽一段时间,即使
我采用了几十个代理随机轮换采集,仍然在一段时间以后会出现采集不到的情
况。后来还不定时地发现采集内容不完整,例如 tvmao 的电视剧分集介绍每页
3 集,假设每集有十几句话,实际采集到的只有每集一句话,晕,怎么会这
样????或者一部电视剧 30 集,采集回来发现漏掉好多集,给这部电视剧重新采
集一遍,能够弥补几集,仍有遗漏。
所以第三套(远程采集+http 代理)方案在采集tvmao 的时候最终
遭遇了不能完整采集页面的问题,作为猜测,或许是代理服务器的问题,也或
许 tvmao 采取了一些反采集措施,首先 tvmao 不可能完全屏蔽这些代理服务
器的 IP,否则搜索引擎的爬虫也会遭遇同样问题,因此针对采集者 IP 返回不完
整的页面内容,而这几乎不影响搜索引擎对页面基本内容的抓取,
文档评论(0)