网站大量收购独家精品文档,联系QQ:2885784924

《金融大数据分析》-课件全套 第1--19章 数据的管理与探索 ---大数据机器学习方法在金融学中的应用.pptx

《金融大数据分析》-课件全套 第1--19章 数据的管理与探索 ---大数据机器学习方法在金融学中的应用.pptx

  1. 1、本文档共651页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章数据的管理与探索;1.1学习目标;1.2金融数据管理的挑战与机遇;1.3数据的存储与使用;1.3.2数据存储的格式

在实际操作中,可以将数据存入各种格式的数据之中,如EXCEL中的CSV和XLSX格式,数据提供商需要程序接触的JOSN文件,大数据存储的Parquet格式。

表1.1将以上几种格式进行了比较:

1、较小的数据常用CSV和XLSX格式保存,阅读这些文件非常简单直接,但最大的问题是读写速度较慢以及其占用的存储空间较大。

2、当数据量巨大时,我们应将数据以Parquet格式保存,其优势在于易于存储与读写。

3、JSON在网络应用中有着非常广泛的应用,由于其格式清晰,我们非常容易能使用程序来抓去这些数据中的关键信息。但是因为该文件以文本形式存储,因此读写速度往往也不是最优。;文件类型;1.4Pandas与Matplotlib简介;1.4.1.1Pandas的弱点

1、Pandas一般来说需要将一个文件中的所有数据都读入内存才能对其进行高效操作。因此,如果有的数据集过大,那么Pandas将无法高效处理这些数据。

2、另外,在数据处理过程中常用的SQL语言在Pandas没有相应的支持。如果需要在Pandas中使用SQL,我们必须安装额外的程序包。;1.4.2数据可视化程序库简介;1.4.2.2Seaborn简介

Seaborn是基于matplotlib的Python数据可视化库,提供了一个高级接口来绘制吸引人且信息丰富的统计图形。

Seaborn的目标是使可视化成为探索和理解数据的核心部分。它具有内置主题、支持多种统计图表类型、与Pandas数据框架良好集成、自动统计估计和错误条显示、分面功能以及可高度自定义,非常适合进行统计分析和数据呈现。

;1.5程序:数据的管理以及初步探索;我们用df.head(5)来现实df这个数据帧中的前五行。其中,第一列数字是这个数据帧的索引。这个索引便于我们找到数据的位置。该索引是从0开始计数的。这个数据中的每一个行对应的是一个用户。每一列对应的是我们存储的关于该用户的信息。;1.5.1.1.1数据帧的基本信息接下来,我们来检验一下数据量具体多少。并且,数据帧中的变量分别是以什么格式存储的。

print(df.shape)

print(df.dtypes)

结果如右图:

用df.shape来查看数据帧的大小。(10,4)说明这个数据帧中有10行,4列,???有10个样本,每个样本有四个变量。

df.dtypes说明了数据分别是什么格式。其中income是用int64(整数)存储。stock是用float64(实数)格式存储。其他数据是object格式。这种格式一般是用来存储字串。

;1.5.1.1.2获取变量信息如果我们只要使用一个变量,那么我们可以用方括号来查看一个变量。

stock=df[stock]

print(stock)

结果如下图:

;1.5.1.1.3获取行信息如果我们需要查看一个用户,那么我们可以续用.iloc[索引]来查看一行。

user_0=df.iloc[0]

print(user_0)

结果如下图:

;1.5.1.1.4获取子数据集我们也可以筛选数据。例如,下面我们将性别为男性的用户筛选出来,存入一个新的数据帧。

df_male=df[df[gender]==M]

print(df_male.head())

结果如下图:

;我们也可以叠加选择条件。例如,我们需要选取用户性别为男,并且收入超过100000的用户。注意,因为我们需要使用两个筛选条件,此时我们需要使用逻辑操作(也就是and),以表示我们需要两个条件同时达到才会选入。

df_male_highinc=df[(df[gender]==M)(df[income]100000)]

print(df_male_highinc)

结果如下图:

;1.5.1.1.5生成新变量我们也可以通过数据帧中的两个或多个变量来生成新的变量。比如,我们可以生成投资组合与收入的一个比例(income/stock)。

df[income_stock_ratio]=df[income]/df[stock]

print(df.head(5))

结果如下图:

;1.5.1.1.6数据的初步探索我们将用pandas的内置功能,对数据进行初步探索。首先,我们先对变量的平均值,标准方差,最小值最大值等一系列信息进行总结。

df[income].describe()

结果如下图:

;我们可以分别对男性用户以及女性用户的信息进行总结。在此,我们需要用到groupby这个方法。groupby可以帮助我们将数据放到不同的子集中。同时,agg方法帮我

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档