- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章数据的管理与探索;1.1学习目标;1.2金融数据管理的挑战与机遇;1.3数据的存储与使用;1.3.2数据存储的格式
在实际操作中,可以将数据存入各种格式的数据之中,如EXCEL中的CSV和XLSX格式,数据提供商需要程序接触的JOSN文件,大数据存储的Parquet格式。
表1.1将以上几种格式进行了比较:
1、较小的数据常用CSV和XLSX格式保存,阅读这些文件非常简单直接,但最大的问题是读写速度较慢以及其占用的存储空间较大。
2、当数据量巨大时,我们应将数据以Parquet格式保存,其优势在于易于存储与读写。
3、JSON在网络应用中有着非常广泛的应用,由于其格式清晰,我们非常容易能使用程序来抓去这些数据中的关键信息。但是因为该文件以文本形式存储,因此读写速度往往也不是最优。;文件类型;1.4Pandas与Matplotlib简介;1.4.1.1Pandas的弱点
1、Pandas一般来说需要将一个文件中的所有数据都读入内存才能对其进行高效操作。因此,如果有的数据集过大,那么Pandas将无法高效处理这些数据。
2、另外,在数据处理过程中常用的SQL语言在Pandas没有相应的支持。如果需要在Pandas中使用SQL,我们必须安装额外的程序包。;1.4.2数据可视化程序库简介;1.4.2.2Seaborn简介
Seaborn是基于matplotlib的Python数据可视化库,提供了一个高级接口来绘制吸引人且信息丰富的统计图形。
Seaborn的目标是使可视化成为探索和理解数据的核心部分。它具有内置主题、支持多种统计图表类型、与Pandas数据框架良好集成、自动统计估计和错误条显示、分面功能以及可高度自定义,非常适合进行统计分析和数据呈现。
;1.5程序:数据的管理以及初步探索;我们用df.head(5)来现实df这个数据帧中的前五行。其中,第一列数字是这个数据帧的索引。这个索引便于我们找到数据的位置。该索引是从0开始计数的。这个数据中的每一个行对应的是一个用户。每一列对应的是我们存储的关于该用户的信息。;1.5.1.1.1数据帧的基本信息接下来,我们来检验一下数据量具体多少。并且,数据帧中的变量分别是以什么格式存储的。
print(df.shape)
print(df.dtypes)
结果如右图:
用df.shape来查看数据帧的大小。(10,4)说明这个数据帧中有10行,4列,即???10个样本,每个样本有四个变量。
df.dtypes说明了数据分别是什么格式。其中income是用int64(整数)存储。stock是用float64(实数)格式存储。其他数据是object格式。这种格式一般是用来存储字串。
;1.5.1.1.2获取变量信息如果我们只要使用一个变量,那么我们可以用方括号来查看一个变量。
stock=df[stock]
print(stock)
结果如下图:
;1.5.1.1.3获取行信息如果我们需要查看一个用户,那么我们可以续用.iloc[索引]来查看一行。
user_0=df.iloc[0]
print(user_0)
结果如下图:
;1.5.1.1.4获取子数据集我们也可以筛选数据。例如,下面我们将性别为男性的用户筛选出来,存入一个新的数据帧。
df_male=df[df[gender]==M]
print(df_male.head())
结果如下图:
;我们也可以叠加选择条件。例如,我们需要选取用户性别为男,并且收入超过100000的用户。注意,因为我们需要使用两个筛选条件,此时我们需要使用逻辑操作(也就是and),以表示我们需要两个条件同时达到才会选入。
df_male_highinc=df[(df[gender]==M)(df[income]100000)]
print(df_male_highinc)
结果如下图:
;1.5.1.1.5生成新变量我们也可以通过数据帧中的两个或多个变量来生成新的变量。比如,我们可以生成投资组合与收入的一个比例(income/stock)。
df[income_stock_ratio]=df[income]/df[stock]
print(df.head(5))
结果如下图:
;1.5.1.1.6数据的初步探索我们将用pandas的内置功能,对数据进行初步探索。首先,我们先对变量的平均值,标准方差,最小值最大值等一系列信息进行总结。
df[income].describe()
结果如下图:
;我们可以分别对男性用户以及女性用户的信息进行总结。在此,我们需要用到groupby这个方法。groupby可以帮助我们将数据放到不同的子集中。同时,agg方法帮我
您可能关注的文档
- 《金融大数据分析》-课件 第 11 章 监督学习的小结.pptx
- 《金融大数据分析》-课件 第 12 章 主成分分析.pptx
- 《金融大数据分析》-课件 第 19 章.pptx
- 《金融大数据分析》-课件 第2章 数学以及统计学回顾.pptx
- 《金融大数据分析》-课件 第3章 线性回归.pptx
- 《金融大数据分析》-课件 第4章 逻辑回归.pptx
- 《金融大数据分析》-课件 第5章 其他基础监督学习方法.pptx
- 《金融大数据分析》-课件 第6章 模型验证.pptx
- 《金融大数据分析》-课件 第7章模型选择与正则.pptx
- 《金融大数据分析》-课件 第8章 决策树.pptx
- 专题02+时事热点(精讲课件)2025年中考地理二轮复习讲练测(安徽专用).pptx
- 专题10+经济建设 2025年中考道德与法治二轮复习讲练测(广东专用).pptx
- 专题02+西游记【名著概览】+-+2025年中考语文必读名著演练.pptx
- 专题七+认识国家(课件)-【省心备考】2025年中考地理一轮复习优质课件.pptx
- 第22课《礼记》二则——《大道之行也》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 跨学科实践15:制作“龙骨水车”(课件)-2024-2025学年八年级物理下学期项目化课程案例.pptx
- 第13课_辽宋夏金元时期的对外交流(课件)2024-2025学年七年级历史下册同步教学课件.pptx
- 选择题专项讲解——综合类(课件)2025年初中道德与法治中考选择题练习.pptx
- 第21课《庄子》二则——《北冥有鱼》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 7.3+感受澳大利亚(第二课时)-2025学年七年级地理下册同步精品课堂(晋教版2024).pptx
最近下载
- 第16讲 光的直线传播-2024年新八年级物理暑假提升自学课讲义(人教版2024)(解析版).docx VIP
- 国际商法教案.docx VIP
- 2025年鼎和财产保险股份有限公司人员招聘笔试备考试题及答案解析.docx
- 飞机发电机讲解.ppt
- 大数据与人工智能智慧树知到期末考试答案2024年.docx
- 2024年广东深圳市龙岗区总工会社会化工会工作者招聘笔试参考题库附带答案详解.pdf VIP
- 2024年贵州省中考适应性考试九年级数学试题和答案详解.docx
- 大学物理实验坐标纸.doc
- 小学低年级数学游戏教学的问题与对策研究——以开福区荷叶小学为例.docx VIP
- 直流电机PWM控制调速系统设计.doc VIP
文档评论(0)