- 1、本文档共651页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章数据的管理与探索;1.1学习目标;1.2金融数据管理的挑战与机遇;1.3数据的存储与使用;1.3.2数据存储的格式
在实际操作中,可以将数据存入各种格式的数据之中,如EXCEL中的CSV和XLSX格式,数据提供商需要程序接触的JOSN文件,大数据存储的Parquet格式。
表1.1将以上几种格式进行了比较:
1、较小的数据常用CSV和XLSX格式保存,阅读这些文件非常简单直接,但最大的问题是读写速度较慢以及其占用的存储空间较大。
2、当数据量巨大时,我们应将数据以Parquet格式保存,其优势在于易于存储与读写。
3、JSON在网络应用中有着非常广泛的应用,由于其格式清晰,我们非常容易能使用程序来抓去这些数据中的关键信息。但是因为该文件以文本形式存储,因此读写速度往往也不是最优。;文件类型;1.4Pandas与Matplotlib简介;1.4.1.1Pandas的弱点
1、Pandas一般来说需要将一个文件中的所有数据都读入内存才能对其进行高效操作。因此,如果有的数据集过大,那么Pandas将无法高效处理这些数据。
2、另外,在数据处理过程中常用的SQL语言在Pandas没有相应的支持。如果需要在Pandas中使用SQL,我们必须安装额外的程序包。;1.4.2数据可视化程序库简介;1.4.2.2Seaborn简介
Seaborn是基于matplotlib的Python数据可视化库,提供了一个高级接口来绘制吸引人且信息丰富的统计图形。
Seaborn的目标是使可视化成为探索和理解数据的核心部分。它具有内置主题、支持多种统计图表类型、与Pandas数据框架良好集成、自动统计估计和错误条显示、分面功能以及可高度自定义,非常适合进行统计分析和数据呈现。
;1.5程序:数据的管理以及初步探索;我们用df.head(5)来现实df这个数据帧中的前五行。其中,第一列数字是这个数据帧的索引。这个索引便于我们找到数据的位置。该索引是从0开始计数的。这个数据中的每一个行对应的是一个用户。每一列对应的是我们存储的关于该用户的信息。;1.5.1.1.1数据帧的基本信息接下来,我们来检验一下数据量具体多少。并且,数据帧中的变量分别是以什么格式存储的。
print(df.shape)
print(df.dtypes)
结果如右图:
用df.shape来查看数据帧的大小。(10,4)说明这个数据帧中有10行,4列,???有10个样本,每个样本有四个变量。
df.dtypes说明了数据分别是什么格式。其中income是用int64(整数)存储。stock是用float64(实数)格式存储。其他数据是object格式。这种格式一般是用来存储字串。
;1.5.1.1.2获取变量信息如果我们只要使用一个变量,那么我们可以用方括号来查看一个变量。
stock=df[stock]
print(stock)
结果如下图:
;1.5.1.1.3获取行信息如果我们需要查看一个用户,那么我们可以续用.iloc[索引]来查看一行。
user_0=df.iloc[0]
print(user_0)
结果如下图:
;1.5.1.1.4获取子数据集我们也可以筛选数据。例如,下面我们将性别为男性的用户筛选出来,存入一个新的数据帧。
df_male=df[df[gender]==M]
print(df_male.head())
结果如下图:
;我们也可以叠加选择条件。例如,我们需要选取用户性别为男,并且收入超过100000的用户。注意,因为我们需要使用两个筛选条件,此时我们需要使用逻辑操作(也就是and),以表示我们需要两个条件同时达到才会选入。
df_male_highinc=df[(df[gender]==M)(df[income]100000)]
print(df_male_highinc)
结果如下图:
;1.5.1.1.5生成新变量我们也可以通过数据帧中的两个或多个变量来生成新的变量。比如,我们可以生成投资组合与收入的一个比例(income/stock)。
df[income_stock_ratio]=df[income]/df[stock]
print(df.head(5))
结果如下图:
;1.5.1.1.6数据的初步探索我们将用pandas的内置功能,对数据进行初步探索。首先,我们先对变量的平均值,标准方差,最小值最大值等一系列信息进行总结。
df[income].describe()
结果如下图:
;我们可以分别对男性用户以及女性用户的信息进行总结。在此,我们需要用到groupby这个方法。groupby可以帮助我们将数据放到不同的子集中。同时,agg方法帮我
您可能关注的文档
- Visual C++实用教程(Visual Studio版)(第6版)(含视频分析提高) 课件全套 第1--9章 基本C++语言 --- 数据库编程.pptx
- Visual C++实用教程(Visual Studio版)(第6版)(含视频分析提高) 课件 第1--3章 基本C++语言 --- MFC基本应用程序的建立.pptx
- Visual C++实用教程(Visual Studio版)(第6版)(含视频分析提高) 课件 第4--9章 窗口和对话框--- 数据库编程 .pptx
- Web前端开发任务驱动式教程(HTML5+CSS3+JavaScript)(第2版)(微课版) 课件 任务10--18 盒子模型及应用---JavaScript的应用 .pptx
- Web前端开发任务驱动式教程(HTML5+CSS3+JavaScript)(第2版)(微课版) 课件 任务1--9 搭建开发环境---复合选择器、通配符选择器.pptx
- 冷链物流 课件 第5--9章 冷链运输与配送组织管理---食品冷链物流安全与风险管理.pptx
- 冷链物流 课件 第1--4章 冷链物流概述--- 冷链物流设施与运输装备.pptx
- 冷链物流 课件全套 第1--9章 冷链物流概述---食品冷链物流安全与风险管理.pptx
- 《金融大数据分析》-课件汇总 第1--9章 数据的管理与探索 -- 集成学习.pptx
- 《金融大数据分析》-课件汇总 第10--19章 神经网络 ---大数据机器学习方法在金融学中的应用 .pptx
- 会计数据分析与处理:基于 SQL 课件 第1章 案例引入.pptx
- 会计数据分析与处理:基于 SQL 课件 第2章 会计信息系统分析.pptx
- 会计数据分析与处理:基于 SQL 课件 第3章 会计信息系统分析.pptx
- 会计数据分析与处理:基于 SQL 课件 第4章 会计信息系统实施.pptx
- 会计数据分析与处理:基于 SQL 课件 第5章 数据库对象和数据管理.pptx
- 会计数据分析与处理:基于 SQL 课件 第6章 SQL语句.pptx
- 会计数据分析与处理:基于 SQL 课件 第7章 SQL应用.pptx
- 会计数据分析与处理:基于 SQL 课件 第8章 会计软件开发平台.pptx
- 会计数据分析与处理:基于 SQL 课件 第9章 嵌入式SQL语句.pptx
- 会计数据分析与处理:基于 SQL 课件 第10章 数据窗口对象及应用.pptx
文档评论(0)