你是如何开始能写python爬虫.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
你是如何开始能写python爬虫? 你是如何开始能写python爬虫? 看完了简明教程和笨办法学python,想写爬虫,无从做起,需要继续看什么书和练习 HYPERLINK /people/gao-ye-liang 高野良 行业分析 / Pythoner / 爬虫写的特别快 / 机器学习入门中 716 人赞同了该回答 看了大部分回答不禁叹口气,主要是因为看到很多大牛在回答像“如何入门爬虫”这种问题的时候,一如当年学霸讲解题目,跳步无数,然后留下一句“不就是这样推嘛”,让一众小白菜鸟一脸懵逼。。作为一个0起步(之前连python都不会),目前总算掌握基础,开始向上进阶的菜鸟,深知其中的不易,所以我会在这个回答里,尽可能全面、细节地分享给大家从0学习爬虫的各种步骤,如果对你有帮助,请点赞~ #我要写爬虫! #Ver.1.2 #Based on: Python 2.7 #Author:高野良 #原创内容,转载请注明出处 首先!你要对爬虫有个明确的认识,这里引用毛主席的思想: 在战略上藐视: “所有网站皆可爬”:互联网的内容都是人写出来的,而且都是偷懒写出来的(不会第一页是a,下一页是8),所以肯定有规律,这就给人有了爬取的可能,可以说,天下没有不能爬的网站 “框架不变”:网站不同,但是原理都类似,大部分爬虫都是从 发送请求——获得页面——解析页面——下载内容——储存内容 这样的流程来进行,只是用的工具不同 在战术上重视: 持之以恒,戒骄戒躁:对于初学入门,不可轻易自满,以为爬了一点内容就什么都会爬了,爬虫虽然是比较简单的技术,但是往深学也是没有止境的(比如搜索引擎等)!只有不断尝试,刻苦钻研才是王道!(为何有种小学作文即视感) || || V 然后,你需要一个宏伟的目标,来让你有持续学习的动力(没有实操项目,真的很难有动力) 我要爬整个豆瓣!... 我要爬整个草榴社区! 我要爬知乎各种妹子的联系方式*^#%^$# || || V 接着,你需要扪心自问一下,自己的python基本功吼不吼啊? 吼啊!——OK,开始欢快地学习爬虫吧 ! 不吼?你还需要学习一个!赶紧回去看廖雪峰老师的教程, 2.7的。至少这些功能和语法你要有基本的掌握 : list,dict:用来序列化你爬的东西 切片:用来对爬取的内容进行分割,生成 条件判断(if等):用来解决爬虫过程中哪些要哪些不要的问题 循环和迭代(for while ):用来循环,重复爬虫动作 文件读写操作:用来读取参数、保存爬下来的内容等 || || V 然后,你需要补充一下下面几个内容,作为你的知识储备: (注:这里并非要求“掌握”,下面讲的两点,只需要先了解,然后通过具体项目来不断实践,直到熟练掌握) 1、网页的基本知识: 基本的HTML语言知识(知道href等大学计算机一级内容即可) 理解网站的发包和收包的概念(POST GET) 稍微一点点的js知识,用于理解动态网页(当然如果本身就懂当然更好啦) 2、一些分析语言,为接下来解析网页内容做准备 NO.1 正则表达式:扛把子技术,总得会最基础的: NO.2 XPATH:高效的分析语言,表达清晰简单,掌握了以后基本可以不用正则 参考: HYPERLINK /?target=http%3A///xpath/ \t _blank XPath 教程 NO.3 Beautifulsoup: 美丽汤模块解析网页神器,一款神器,如果不用一些爬虫框架(如后文讲到的scrapy),配合request,urllib等模块(后面会详细讲),可以编写各种小巧精干的爬虫脚本 官网文档: HYPERLINK /?target=http%3A///zh_CN/latest/ \t _blank Beautiful Soup 4.2.0 文档 参考案例: || || V 接着,你需要一些高效的工具来辅助 (同样,这里先了解,到具体的项目的时候,再熟悉运用) NO.1 F12 开发者工具: 看源代码:快速定位元素 分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看 NO.2 抓包工具: 推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看网站收包发包的信息 NO.3 XPATH CHECKER (火狐插件): 非常不错的xpath测试工具,但是有几个坑,都是个人踩过的,,在此告诫大家: 1、xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考 2、记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删

文档评论(0)

yigang0925 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档