Python 与大数据分析.pptx

  1. 1、本文档共471页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Python 与大数据分析 ;Python与大数据分析 ;自我介绍;;;;;;Python语言的诞生和发展历史;Python与蟒蛇有关? Guido van Rossum 于1989年在荷兰国家数学和计算机科学研究所设计出来的;Python 2.0版本于2000年10月发布。 在2008年12月,Python 3.0发布,此版本没有完全兼容之前的Python 2.0 Python也因此分为了Python 3.5派系和Python 2.7派系两大阵营;TIOBE INDEX:编程语言流行程度排行榜;Python曾在2007年和2010年两度被TIOBE排行榜评为“年度编程语言” 现已成为了第五大流行编程语言(截至2016年10月);Python语言的特点;优点二:强大的标准库 完善的基础代码库,覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理等大量内容,被形象地称为“内置电池”(batteries included) Python使用者——“调包侠”;优点三:良好的可扩展性 大量的第三方模块,覆盖了科学计算、Web开发、数据接口、图形系统等众多领域,开发???代码通过很好的封装,也可以作为第三方模块给别人使用。如Pandas、Numpy、Seaborn、Scikit-learn等等 优点四:免费、开源;缺点一:运行速度慢 缺点二:加密难 缺点三:缩进规则 缺点四:多线程灾难;;;;运行环境及安装;IPython鼓励一种“执行-探索”(execute-explore)的工作模式 输入代码之后,按下回车,便会立即得到代码运行结果;;;;;;;;;;总结;实践案例 1: PyCharm下 ;;解释型语言Python;;用来存储一些之后可能会变化的值 对科比投篮ID为 1 的一次投篮进行分析,那么我们就可以创建一个名称为 shot_id 的变量,并且将 1 值储存在变量 shot_id 中 如果之后我们想要分析科比的另外一次投篮,比如投篮ID为 2 的投篮,我们只需要修改变量 shot_id 的赋值,将 shot_id 赋值为 2 即可;变量名必须是大小写英文字母、数字或下划线 _ 的组合,不能用数字开头,并且对大小写敏感 关键字不能用于命名变量 (31个),如and、as、assert、break、class、continue、def、del等;通过赋值运算符 = 变量名和想要赋予变量的值连接起来,变量的赋值操作就完成了声明和定义的的过程,在其他语言中需要制定类型; 同一变量可以反复赋值,而且可以是不同类型的变量,这也是Python语言称之为动态语言的原因;常量表示“不能变”的变量 Python中是没有常量的关键字的,只是我们常常约定使用大写字母组合的变量名表示常量,也有不要对其进行赋值”的提醒作用;如同我们在看书时做笔记一样 Python语言会通过注释符号识别出注释的部分,将它们当做纯文本,并在执行代码时跳过这些纯文本 在Python语言中,使用 # 进行行注释;多行注释使用连续单个单引号或者双引号;在Python 2.x版本中,同时兼容 print 和 print() 在Python 3.x版本中,print 函数为带括号的 print() 如果想要看变量的值,则直接在 print 后面加上变量名即可。如果是想要输出提示信息,如一句话,那我们需要将提示信息用 ‘ 单引号包裹起来(这使得内容构成一个字符串);使用逗号,隔开变量与其他剩余内容,则 print 在输出时会依次打印各个字符串或变量,遇到逗号,时会输出一个空格;Python语言的数据类型包括整型、浮点型、字符串、布尔型和空值 整型(int) 整型的取值为整数,有正有负,如 2,-666,666 等。在科比投篮数据集中,shot_id、game_event_id、game_id、loc_x、loc_y、minutes_remaining、period、playoffs、seconds_remaining、shot_distance、shot_made_flag、team_id都是整型变量;浮点型的取值为小数,当计算有精度要求时被使用,由于小数点可以在相应的二进制的不同位置浮动,故而称为浮点数 如 3.14,-6.66 等,但是如果是非常大或者非常小的浮点数,就需要使用科学计数法表示,用 e 代替 10 。科比投篮数据集中的 lat 和lon 为浮点型变量。 ;字符串(str) 字符串是以两个单引号或两个双引号包裹起来的文本 字符串 Jump Shot 包括 J,u,m,p,空格,S,h,o,t 这9个字符;转义字符:字符串里常常存在一些如换行、制表符等有特殊含义的字符,这些字符称之为转义字符 比如 \n 表示换行, \t 表示制表符,Python还允许用 r“ ”

文档评论(0)

189****5087 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档