网站大量收购独家精品文档,联系QQ:2885784924

《金融大数据分析》-课件 第 12 章 主成分分析.pptx

《金融大数据分析》-课件 第 12 章 主成分分析.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第12章主成分分析

学习目标

本章的学习目标为下:

1.熟悉主成分分析的应用范围

2.理解主成分分析法的算法

3.熟悉使用程序实现主成分分析

案例:投资策略

预测股票回报是金融学学术界以及业界都非常关心的问题。在量化投资领域,研究

人员发现了大量的投资策略。有论文总结出上百种不同的股票投资的信号。但是这

些许多信号可能包含着类似的信息。当我们预测股票回报时,我们可以将所有的变

量都作为模型特征。但是这种方法会有许多问题。第一,大量的特征可能会降低模

型训练速度。第二,当我们模型中大量特征有很高的相关性时,可能会导致模型的

表现不稳定。

在这一章中,我们将介绍一种有助于解决以上问题的无监督学习的方法:主成分分

析。

主成分分析方法

方法简介

主成分分析(PrincipleComponentAnalysis)能够从多个变量中

提取出共同的信息。我们可以将大量的变量转换为数量更少的变量,

同时又能保留这些变量中的大部分信息(我们将这一过程称为降

维)。因此,我们可以通过主成分分析达到减少模型中特征数量,

从而能提高模型的训练速度的效果。同时,主成分分析降低模型

特征的相关性。

方法简介(案例)

方法简介(案例)

方法简介(案例)

方法简介(案例)

方法简介

如何找到主成分

如何找到主成分

如何找到主成分

如何找到主成分

如何找到主成分

如何找到主成分

如何找到主成分

拓展:偏最小二乘回归

在使用主成分分析时,仅仅考虑的是特征变量间的关系,而并未考

虑特征变量与目标变量之间的关系。如果,我们想在降低特征维度

的的同时达到与目标变量的高相关度,那么,可以考虑使用偏最小

二乘回归方法(PartialLeastSquare或PLS)。也就是说,这

种方法抽取的低维度变量需要同时与特征变量与目标变量有较高的

相关性。

偏最小二乘回归算法

偏最小二乘回归算法

主成分分析程序

我们用每股收益数据做为例子来探索主成分分析的使用场景。首先,

我们对该数据的三个特征进行主成分分析。接下来,使用主成分分

析对数据进行降维。最后,我们分别用降维前以及降维后的数据来

预测未来每股收益。

导入库

使用pandas存储数据

导入sklearn.preprocessing库中的StandardScaler类,用于数据标准化

导入sklearn.linear_model库中的LinearRegression类,用于线性回归模型分析

导入sklearn.metrics库中的mean_squared_error函数,用于计算均方误差

导入sklearn.decomposition库中的PCA类,用于主成分分析

进行数据读取及处理

读取名为`ols_training.csv’的CSV文件中的数据,并将其存储在train-ing_data变

量中

读取名为`ols_testing.csv’的CSV文件中的数据,并将其存储在testing_data变量中

打印训练数据集和测试数据集的前五行,用于查看数据格式和内容

进行数据读取及处理

从数据中删除不需要的特征列

在训练集中删除`eps_basic’列,其余变量作为特征变量,保存在X_train中,并

将’eps_basic’列作为目标变量,保存在y_train中

在测试集中删除`eps_basic’列,其余变量作为特征变量,保存在X_test中,并

将’eps_basic’列作为目标变量,保存在y_test中

进行数据读取及处理

创建一个StandardScaler对象,用于对数据进行标准化处理

使用fit_transfrom方法计算数据集X_train的平均值和标准偏差并对数据进行标准化处

理,之后将标准化后的结果储存在X_train_scaled中

使用transform方法对X_test中的特征数据进行标准化处理,并使用与X_train同样的

标准化标准,即X_train的均值和标准差,之后将标准化后的结果储存在X_test_scaled

创建一个PCA对象,设置主成分的数量为3

进行数据读取及处理

使用fit方法对X_train_scaled特征矩阵进行主成分分析,返回主成分分析后的特征矩阵

X_train_pca

从PCA对象中获取前三个主成分对应的方差比率,并将其保存在variance_explained中,

用于可视化展示每个主成分解释的方差比例

进行数据读取及处理

创建一个新的窗口,准备进行可视化展示

进行数据读取及处理

进行数据读取及处理

进行数据读取及处理

使用fit方法对X_test_scaled进行转换,得到降维后的测试数据

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档