数据降维技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据降维技术

降维技术 报告人:杨风召 问题的提出 数据冗余 实际数据的维之间往往有相关性; 维难(Dimensional Curse) 索引结构的性能随着维数的增大迅速降低,在维数较高(10)时,不如顺序扫描 解决的途径——降维 消除数据冗余 去掉可导出的维,只保留独立维 高维数据索引 先进行降维 在降维后的子空间用一维或多维索引技术 可能会引起信息的丢失,从而降低查询精度 降维方法 空间填充曲线(Space Filling Curve) 奇异值分解(SVD) 距离映射算法(Distance-Mapping Algorithm) Fastmap Pyramid 技术 选维技术 DFT和DWT 空间填充曲线 Z-Ordering 其它空间填充曲线 SVD原理 直接选维带来的问题 二维(XY) A的2-nn:B和C 一维(X) A的2-nn:B和D SVD原理 先旋转坐标轴在进行选维 XY?X1Y1 二维(XY) A的2-nn:B和C 一维(X) A的2-nn:B和C SVD算法的基本过程 给定A是n个d-维向量组成的矩阵,用SVD进行变换的过程如下: 通过分解矩阵A,计算d?d的SVD-变换矩阵V。 A=U?VT U——n?d的矩阵 ?— d?d的奇异值矩阵 V—— d?d的正交基矩阵,也称SVD-变换矩阵 用A中的每个向量P乘以V,得到变换后的数据 SVD-变换与索引结构的结合 SVD的优缺点 优点 利用整个数据集进行变换,对静态数据效果很好 缺点 不适合动态的数据库环境 数据插入、删除、更新频繁,坐标轴要跟着旋转,以适应新的数据,否则性能下降 要使性能不下降,SVD-变换需要重新计算。计算SVD-变换矩阵的时间复杂度为O(n*d2) 在动态数据库中怎样使用SVD 每当数据更新时,都重新计算SVD-变换矩阵——查询精确度高,计算代价太大 不重新计算SVD-变换矩阵。——计算代价小,精确度随着更新数据的增多而下降 当数据更新引起的查询精度下降到某一阈值时,重新重新计算SVD-变换矩阵——牺牲一定的精确度,减小计算工作量 重新计算SVD-变换矩阵的方法 采用整个数据集进行重新计算 采用聚合数据进行重新计算 采用整个数据集重新计算SVD-变换矩阵(All-Data-SVD) 采用聚合数据重新计算SVD-变换矩阵(Approximation-SVD) 第一步 聚合数据集抽取:聚合数据集应能反映数据分布 选择索引结构的某一层 越靠近叶子层,精度越高,计算量越大 对每个结点,计算该结点下所有数据的中心点 所有的中心点组成聚合数据集 第二步 SVD计算:用聚合数据计算SVD-变换矩阵 重新计算SVD-变换与索引结构的结合 树重构(Tree-Reconstruct) 结构重用(Structure-Reuse) 重用-重构( Reuse – Reconstruct) 性能较好 FastMap 两类问题 ?一般问题(distance case) 输入:给定N个对象和它们之间的距离(N×N距离矩阵,或仅仅只是一个距离函数) 输出:k-dimension空间中的N个点,并尽可能保持它们之间原有的距离 ?特殊问题(features case) 输入:给定N个n-dimension向量 输出:k-dimension空间中的N个向量,并尽可能保持它们之间原有的距离 解决一般问题的主要思想 假设给定对象是某个不知道的n-维空间中的点,将它们投影到k个相互垂直的方向上去 算法的基本步骤 选择两个对象Oa和Ob(称为轴对象) 任选一个对象作为第二个轴对象Ob 将离Ob最远的对象作为Oa 将离Oa最远的对象作为Ob 将所有的对象投影到直线OaOb上,得到N个一维向量 导出对象在垂直于直线OaOb的超平面上的距离函数 在超平面上递归调用FastMap算法k-1次 超平面上对象间欧氏距离的计算 基于FastMap的查询 点查询 将查询点Oq映射成目标空间中的一个k-维点 用多维索引结构进行查询 范围查询 将查询点Oq映射成目标空间中的一个k-维超级立方体 用多维索引结构进行查询 FastMap的应用 在不知对象特征的情况下进行查询 降维 高维数据可视化 高维索引 高维数据可视化举例 Pyramid-技术 基本原理: 将d-维数据点转换成1-维的数值,然后用一种有效的索引结构如B+-树进行数值的存取。 数据空间的剖分 第一步:将数据空间划分成2d个金字塔,这些金字塔以数据空间的中心(0.5,0.5,…,0.5)为顶点,以数据空间的(d-1)-维表面作为基座。 第二步:每个金字塔划分成多个平行于基座的部分,每个部分对应于B+-树的一个数据页。 Pyramid空间剖分策略的优势

文档评论(0)

xyz118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档