- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
主成分分析:简化复杂数据集
我们有很多数据。
有时,这些数据可能非常复杂。很难在所有内容中找到有用的信息。一种有用的方法称为主成分分析(PCA)。人们在许多领域使用PCA,包括数据科学家、研究人员以及各个业务领域的人员。PCA可以帮助他们了解数据的模式和趋势。
在本文中,我们将了解PCA的工作原理。我们将看到它如何简化复杂的数据集并帮助做出更好的决策。
主成分分析简介
PCA是一种最小化大型数据集大小的技术。这样做的同时,它保留了最重要的信息。PCA通过显示数据变化最大的位置来查找数据中的模式。这些模式称为主成分。它们是由原始变量组成的新变量,导致维度降低。
降维可以最大限度地减少数据集中变量的数量。但PCA不仅仅删除变量;还删除变量。它创建新的数据来总结数据。这些新组件彼此不相关,并根据它们从原始数据中捕获的信息量进行排名。
主成分分析涉及的步骤
PCA的过程包括以下步骤:
数据标准化
在应用PCA之前,对数据进行标准化至关重要。此过程首先将数据居中。您从每个值中减去平均值,然后通过将其除以标准差来缩放数据。此步骤可确保PCA结果不偏向较大规模的变量。
协方差矩阵
下一步是计算标准化数据的协方差矩阵。协方差矩阵量化了维度之间相对于平均值的变化程度。
特征值分解
PCA涉及查找协方差矩阵的特征值和特征向量。特征向量显示数据变化最大的方向。这些被称为主成分。特征值告诉我们数据在这些方向上的变化程度。
选择主成分
一旦计算出特征值和特征向量,它们就会根据特征值按降序排序。前k个特征向量形成主成分。k的选择通常以解释方差准则为指导,该准则表示所选组件保留的方差比例。
将数据投影到主成分上
最后,原始数据可以投影到由所选主成分定义的新特征空间上:
Y=ZW
在哪里:
Y是变换后的数据
W是包含所选特征向量的矩阵
主成分分析的应用
PCA有多种有用的应用。这里仅列出一些。
数据可视化
在具有许多特征的数据集中,很难可视化数据点之间的关系。PCA有助于将这些数据减少到更少的维度。这使得创建图表和可视化模式变得更加容易。它用于生物学和金融等领域来理解复杂的数据集。
图像压缩
PCA可以减小图像文件的大小。它保留了图像最重要的特征并减少了其尺寸。这有助于节省存储空间,而不会丢失太多细节。
推荐系统
PCA用于减少推荐系统中的数据。它有助于识别用户偏好的模式并推荐产品或服务。Netflix和Amazon等平台使用它来改进推荐。
遗传学和生物信息学
在遗传学中,PCA有助于简化大型数据集,例如DNA序列。它识别相关遗传信息的模式和集群。这使得分析基因或群体之间的关系变得更容易。
金融
PCA用于识别影响股票价格的主要因素。它有助于降低财务数据的复杂性。投资者和分析师使用PCA来更好地了解市场趋势。
?
Python中的PCA实现
?
在Python中,Scikit-learn的StandardScaler函数标准化了数据集的特征。PCA函数降低了数据集的维数。可视化有助于解释PCA的结果。
让我们看看这个的实现。
#导入必要的库
将numpy导入为np
将pandas导入为pd
从sklearn.decomposition导入PCA
从sklearn.preprocessing导入StandardScaler
将matplotlib.pyplot导入为plt
#示例:加载数据集
data=np.random.rand(100,5)#100个样本,5个特征
#标准化数据(对于PCA很重要)
定标器=标准定标器()
data_scaled=缩放器.fit_transform(数据)
#初始化PCA对象并拟合数据
pca=PCA(n_components=2)
主体组件=pca.fit_transform(data_scaled)
#使用主要组件创建一个DataFrame
pca_df=pd.DataFrame(data=principal_components,columns=[PC1,PC2])
#查看每个组件解释的方差
print(解释方差比:,pca.explained_variance_ratio_)
#绘制主成分图
plt.figure(图大小=(8,6))
plt.scatter(pca_df[PC1],pca_df[PC2])
plt.title(PCA-DataProjectionontoPrincipalComponents)
plt.xlabel(PrincipalComponent1)
plt.ylabel(PrincipalComponent2)
plt.s
您可能关注的文档
- Copulas:超越线性相关性的依赖性建模.docx
- 从直方图到核密度估计.docx
- 极值理论:理解和预测罕见事件.docx
- 结构方程建模:揭示数据中的复杂关系.docx
- 进行功效分析以确定样本量.docx
- 空间统计的迷人世界:分析地理数据.docx
- 懒惰数据科学家掌握统计指南.docx
- 蒙蒂·霍尔问题的解释:概率、决策论以及直觉失败的原因.docx
- 朴素贝叶斯算法:您需要了解的一切.docx
- 倾斜数据解释:为什么右倾斜或左倾斜很重要.docx
- 2024年度安永全球另类投资基金调查报告.docx
- 2024年中国汽车产业出海回顾分析 -中汽信科国际化研究团队.docx
- 【民航局国际合作服务中心】马尔代夫民航业发展研究报告.docx
- 2025走向融合与深化的中国媒介市场报告-星传媒体.docx
- 2023Givaudan和ESG目的与性能.docx
- 中国民间应对气候变化行动故事集-教育故事.docx
- 2025AI制药市场规模产业链构成应用现状及AI制药公司分析报告.docx
- 医疗器械专题之基因测序:分子诊断掌上明珠,四代测序开启规模化应用时代.docx
- 2024年中央银行黄金储备调查报告 202406.docx
- 智慧芽 -2024第4季度全球潜力靶点及FIC产品调研报告.docx
文档评论(0)