关于大数据若干科学问题的研究.ppt

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于非结构化问题研究(视觉模拟方法) 格式塔组织原理: 物体更容易作为一个整体被感知 邻近率:相邻的物体容易看做一类 连续率:整体趋于某种形状的对象趋于看成一类 相似率:有相似属性(颜色、形状、纹理等)的更容易归为一类 封闭率: 不封闭的物体更容易理解为封闭的 对称率:对称的物体更容易归为一类 邻近率 连续率 相似率 封闭率 对称率 高层认知原理 基本原理: 将数据点视为单位光强的光点,将数据集视为一幅图像;通过模拟人眼的视觉原理,发展基于尺度空间的聚类原理与算法(IEEE Trans. PAMI, 2000). 数据图像: 尺度空间图像: = 0.2 = 1.2 = 5.0 数据集的多尺度演化: 关于非结构化问题研究(视觉模拟方法) 什么是类:一个光斑可解释为一类。光斑是由收敛于同一极大值点的所有数据点所组成,而极大值点即为该类的类中心。 光 斑 类中心: 梯度流: 300类 ( 3 类 ( = 0.2 ) = 1 ) 关于非结构化问题研究(视觉模拟方法) 三个基本问题: 如何离散化尺度? 什么是类? 类是单调演化的吗? 步骤 1:确定一序列尺度 ,其中 。当 时, 每个数据点都是一类,而该数据点即为所在类的类中心。令 。 步骤 2:在尺度 下,从前一尺度 的聚类中心点出发,找到新的聚类中心,并对数据进行聚合归类。 步骤 3:如果类数大于1, 令 , 返回步骤2。 梯度流迭代公式: 基于尺度空间的聚类算法 关于非结构化问题研究(视觉模拟方法) 输入数据 层次聚类 尺度离散化:运用心理物理学Weber实验定律诱导: 为Weber常数 尺度 关于非结构化问题研究(视觉模拟方法) 什么是类:通过引进类的生存寿命概念,给出了类的认知定义,解决了聚类有效性问题。 类的演化单调性:数学上严格证明了结构的因果性(即类的演化单调性),由此形成了尺度空间聚类的一般性理论框架。 关于非结构化问题研究(视觉模拟方法) 关于非结构化问题研究(视觉模拟方法) Chameleon结果 Cluto software 尺度空间滤波的结果;PAMI 2000 视觉聚类机结果 未引入连续率的结果 引入连续率的结果 数据集 视觉聚类器结果 尺度空间聚类结果 具有显著密度差异性数据 流形结构数据 具有噪声的流形结 构数据 应用到各种复杂数据集: 图像分割 关于非结构化问题研究(视觉模拟方法) 已得到广泛应用: 地理数据分析(美国乔治亚大学Lan小组); 图像处理(美国马里兰大学DeMenthon小组); 蛋白质分析(比利时Namur大学Leherte小组); 中科环境与地理信息重点实验室GAMAX系统。 蛋白质分析 地理数据分析 图像处理 关于非结构化问题研究(视觉模拟方法) 目录 第一部分 大数据与大数据研究 第二部分 关于若干大数据科学问题的研究 第三部分 小结 小结 重大的机遇(科研新范式、管理新理念、产业新机遇) 巨大的挑战 (认识? 管 理? 技术? 如何切入?) 清醒 认识 政府搭台、政策引领、企业投入、科技支持 积极 应对 定位要准、投入要实、示范带动 合理 布局 必有大贡献、但必须脚踏实地! 有所 作为 谢 谢 * * * * * * * * * * * * * * * * * * 大数据关键科学问题?(超高维问题) 大数据高维问题:“决策要素(P)伴随大数据(n)呈现更高量级”所引起 的解的不确定性与经典统计推断失效问题。 经典统计学:n>>p; 高维问题:p>>n; 大数据高维问题:p=O(exp(n)), n ->∞. 解 渐近正态 线性模型: 数据: 矩阵形式: 大数据关键科学问题?(超高维问题) 基本科学问题 如何补足信息使问题可解? 低维几何的高维泛化(积分几何); 高维统计推断 超高维数据的低维特征(多维特征提取等); 热点研究:稀疏建模(压缩感知、低秩矩阵分解、基于稀 疏性的特征提取、数据降维、压缩学习等) 关于高维问题的研究(稀疏性理论) 典则稀疏性:信息表示的普遍属性。意指:一个观测中感兴趣的信息单元 在整个单元中仅占少数部分的性质。通常用表示向量x的非零元素个数 刻画。 稀疏信号 稀疏图像 稀疏SAR场景 表示稀疏性:指在合适的参考基底(字典)下,一个观测y仅由少数基(字典 中的少数原子)来表示的特性。通常用其表示向量x的非零元素个数来刻画。 人脸识别问题 关于高维问题的研究(稀疏性理论) (线性)变换稀疏性:信息表示中更为普遍的属性,

您可能关注的文档

文档评论(0)

喜宝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档