浅谈python的网络爬虫.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE6

PAGE9

PAGE6

浅谈python的网络爬虫

摘要

搜索引擎是帮助人们检索信息的工具。但这些通用搜索引擎也有局限性。如何有效地获取网络信息已成为无数企业和个人的追求。当今属于大数据时代,掌握数据量和数据的准确性至关重要,是获得更高更多利于的关键因素。为了解决这个问题,出现了一种类似于网站搜索引擎的引擎,他通过爬虫爬取网页来获取数据。

网络爬虫是一种网络蜘蛛。如果把万维网比作一张网,那爬虫就是网上的一只正在爬行的蜘蛛。Webspider通过链接找到Web页面。将某个网站的所有网页都抓取下来,然后将爬刀的数据进行清洗后进入数据库,后期可视化显示。

关键词:网络爬虫数据python网站

各类设计语言的比较和选择

计算机的编程语言一般来讲可以总结为汇编语言,机器语言以及高级语言这几类。而高级语言又包含了C语言,JAVA,VB,C#,JS,等等,本文针对爬虫的设计选择了几门语言进行了比较分析,挑选适合设计爬虫spider的语言。

C语言

C语言比Cpp、C#、Java这些语言较接近机器语言,而且很多硬件都能直接用C语言编程。除此以外C语言的学习难度是相当大,因为C语言涉及到了指针的调用,而指针实际上也是底层语言的重要特征。目前一些比较复杂的项目和软件,一般都不会用C语言编程,换一些更高级的语言更能有效地节省时间提高效率,缩短开发周期,这也就导致一个问题,使用C语言像写出一个像样点的应用是不容易的即使C语言再精通只是对计算机的底层了解更深,写出真正的软件必须要支持对位、字节和地址操作,像C语言和汇编就可以,位、字节、地址是计算机的基础单元。

C语言的优点

C语言能够对位、字节、地址操作,就像汇编对这三种基本基本计算机单元进行操作一样,而且C的运算符也相当丰富,单单运算符就有好几十种。C语言是一门语法多样化的语言,而且表达式各种各样相当丰富,如果能够熟悉操作这些运算符就能够做出很多高级语言都无法或者很难进行的运算。数据类型丰富C语言的数据类型有:int型、char型、unint、unchar、long、unlong、point、array、Structural等等类型,能进行许多复杂的运算。指针操作是C语言的一大特色,程序的效率相当高。C语言的多表达式和运算符,设计程序时能够更主动和灵活。它在语法上没有严格的限制,在程序设计上有很大的自由度。如操作内存和硬件、对bit、byte、地址读写分配操作,甚至可以用来写操作系统。C语言生成的程序代码质量相当高,程序的执行效率也高,运行速度更是接近汇编语言,其对代码的描述比汇编更简洁,编写代码的工作量小、代码的可读性高、调试方便、移植和修改代码更是易如反掌。如果拿C语言的目标代码效率和汇编目标代码效率比较,仅仅只低10到20个百分点。C语言的可移植性是相当好,不同平台上的不同C编译程序,百分之八九十都是开源的,在一个开发平台用C语言设计了程序,一般不需要改动或者对一些关键部位稍作修改,就可以一直到另一平台上完美运行。C语言有很强的表达能力,而且数据结构、运算符等也是相当丰富,其包含的数据结构,如int、char、array、point、strut等能够用于各类复杂的数据运算。C语言有34种运算符,而且能够直接通过指针操作地址,这个独特的有点让他能够编写出非常强大的应用软件,兼有高级语言和低级语言的许多优点。C语言既可以设计计算机软件系统,又能够设计应用软件,是一种通用的程序编程语言。除此以外,C还具有非常强的图形功能,可以编写各种显示器驱动,计算功能、逻辑判断功能也算是相当的强大。

1.1.2C语言的缺点

C语言的缺点集中在数据结构封装上,导致了C语言的数据库受到威胁,而CPP却没有这样的顾虑。C语言不够严格限制的语法,在编写程序的过程中由于语法的重义或者歧义导致了最终数据不准确,使得程序的数据库变得不安全,不检查数组下标也是其中不严谨的表现。C语言比其他高级语言更加难学,使用C语言编程的人要求熟练掌握设计程序和语法。

C语言因为语法不够严谨,我们在写的过程想怎么写就怎么写,在编译的时候不出错,那么编译器就认为这个是有具体含义的,即便你写错了,有歧义,编译器只会按照他的规则通过编译。例如你给一个变量赋予一个有可能大于变量类型的数据,编译器是不会提示错误的。另外在C语言语法里面也存在一些缺陷,例如goto语句,该语句的本意是从程序的某一个位置跳转到另外一个位置,但是他本身就破坏了程序的流程,我们在分析代码的时候会被他搞得分不清楚方向理解不清思路,甚至是错误的逻辑,但是编译器是不会给你任何提示的,因为你的语法没有问题。Goto语句是非常具有争议的一个用法,这就体现了C语言本身设计上是不够严谨的。当然凡事都有两面

文档评论(0)

西咪发创意 + 关注
实名认证
文档贡献者

文化创造价值

1亿VIP精品文档

相关文档