- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据归约专题 主要处理数据的维度 数据归约基本问题 对大型数据的特征、案例或整体进行维度放缩的问题。(列归约和行归约) 基本原则:时间 模型精度 模型描述 数据归约方法 均值方差法 使用条件:已知某几个特征独立于其他特征. 数据归约方法 均值方差法 使用条件:已知某几个特征独立于其他特征. 数据归约方法 主成分方法 动机 对于具有许多变量的一个现象, 人们往往希望能够用较少的几个综合变量来描述. 这是一种简化. 显然, 如果这些变量互相独立, 则每一个都必须在综合后的变量中有同等份额; 这时无简化可言. 当这些变量很相关时,则有可能用综合变量来大大简化. 一些可以被其它变量代表的变量甚至能省略掉. 主成分分析就是这样一种简化方法. 如果有变量x1,...,xp,数学上可以把它们变换成一组新的变量(称为成分)y1,...,yp,使得: (1)每一个y是那些x的线性组合,即yi=ai1x1+…+aipxp; (Y=a’X) (2)系数aij的平方和为1,即 ai= (ai1,...,aip)T是单位向量; (3)y1是这样的线性组合中方差最大的, y2为和y1不相关的线性组合中使方差最大的,如此下去,一般地, yj为与y1,y2,…,yj-1都不相关的方差最大的线性组合. 矩阵情况 上面这种理论上的变换仅仅在一些关于x变量的假设下才能实现.在实际应用中,如果每个变量有n个观察值,人们得到的是n×p数据阵. 这时就要用代数的办法来解出这些系数ai来.这时主分量的方差相当于(或成比例于)样本相关阵(或协方差阵)的特征值, 而相应的系数为和这些特征值对应的特征向量. 为了我们简化的目的,通常选取特征值最大的几个特征向量作为代表. 利用计算机软件就自动地得到这些特征值和特征向量. 由于变量不同的尺度会影响结果, 因此, 在各变量尺度差别大时, 一般可以用样本相关阵而不是协方差阵来做(这通常在软件的选项之中). 步骤 按照矩阵记号, 求A使得y=Ax , 这里y为主成分向量, A为主成分变换矩阵, x为原始变换向量. 我们需要求出x的相关阵, 但是通常不知道, 但是有了观测值矩阵X之后, 可用样本相关阵R来近似x的相关阵. 步骤: 取R最大的几个特征根所相应的特征向量作为A的行即可. 第一主成分:使Var(a1’X)最大的单位向量a1 (a1’a1=1);而l1=a1’Ra1 =Var(a1’X); 这里R为X的相关阵. 第二主成分:满足Cov(a1’X,a2’X)=0而且使Var(a2’X)最大的单位向量a2 (a2’a2=1);而l2=a2’Ra2=Var(a2’X) …………………………………………. 第k主成分:满足Cov(ai’X, ak’X)=0 (i=1,…,k-1), 而且使Var(ak’X)最大的单位向量ak(ak’ak=1);而lk=ak’Rak =Var(ak’X). 数据归约方法 特征排列的熵度量法 熵度量 熵为信息论的一个概念 熵值由相似度变换求得 熵值表示系统的有序性,有序结构,熵值越少,无序结构,熵值越大。 案例归约问题 针对行进行归约。 分为值归约和取样两类方法。 值归约 步骤: 对已知的特征的所有值分类 大概制定分类的均等数目(分类数大致确定) 减少全局距离误差 取样问题 1、增量取样,逐步增大随机样本子集,发现其性能迅速稳定则停止。 2、用统计学中的抽样技术,特点,需要对总体有一定的了解。 * * 头几个变量(主成分)由于其方差最大,往往包含了绝大部分信息,人们就可以用它们来描述原来用p个变量所代表的现象. 简化也就完成了. 向量X的线性组合a’X的方差为 Var(a’X)=a’Cov(X)a; Cov(X)未知;于是用X的样本相关阵R来近似.因此, 我们要寻找向量a使得 a’Ra最大 的p×p矩阵. 而对于观测值X=(x1,…, xp), 其中xi =(x1i,…, xni), i=1,…,p, 的样本相关阵第(ij)-元素为 X=(X1,…, Xp)的相关阵为第(ij)-元素为 的p×p矩阵,其中sij为第i和第j观测的样本相关系数 关于特征值和特征向量 特征方程|B-lI|=0的解为特征值l, 这里B为一个p维正定方阵. l通常有p个根l1≥ l2≥… ≥ lp. 满足(B-liI)xi=0的向量xi为li的特征向量. 对任意向量x有性质 取上面几个行向量组成所需的主成分变换矩阵. 主成分i为: yi=ai1x1+…+aipxp (yi贡献率为li/∑j lj ) 相关阵R的特征值 l1≥ l2≥… ≥ lp,而相应的特征向量为下面矩阵的列向量: 头m个主成分的累积贡献率: 这
您可能关注的文档
最近下载
- 草果栽培技术.ppt VIP
- 药物设计软件:Schrodinger二次开发_(16).Schrodinger插件开发与使用.docx VIP
- 浙江省9+1高中联盟2024-2025学年高二上学期11月期中考试物理试题(含答案).docx VIP
- 教育研究导论(宁虹主编)笔记.pdf VIP
- 药物设计软件:Schrodinger二次开发_(15).自定义分子力场与参数化.docx VIP
- 2019年高铁动车广告,高铁车身广告,高铁广告价格.pdf VIP
- 高考数学考点题型全归纳.pdf VIP
- 万华化学安全管理实践.pdf VIP
- 丹纳赫DBS管理系统.pptx VIP
- 金属焊接软件:SYSWELD二次开发_(6).焊接热源模型开发.docx VIP
文档评论(0)