大数据分析与处理中的关键科学问题.ppt

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * 试验及初步理论 线性回归模型: 参数设置: 噪声: 样本个数:100万 参数空间维数:100 数据总量:6G 使用local machines: 初步理论: 试验结果 大数据算法设计问题(可行性理论) 关于非结构化信息处理问题 大数据关键科学问题:非结构化信息处理 非结构化信息问题:不能用有限规则完全表征与刻画,并不能在可接受时间内形式 化处理的大数据。主要挑战来自数据的异构性、信息的不相容性与认知的不一致性。 基本科学问题 异构数据的统一表示与分析方法 非结构化数据处理的统一框架(特别是机器学习算法) 多源异构数据的信息融合 基于认知的算法 (结构化大数据<15%:表格、曲线、几何图形、程序 、有限规则集) (非结构化大数据>85%:文本、图像、时空数据、基因与蛋白质、视频) 非结构化 数据 文本 图像 视频 统一机器学习框架 决策: 步骤 1:确定一序列尺度 ,其中 。当 时, 每个数据点都是一类,而该数据点即为所在类的类中心。令 。 步骤 2:在尺度 下,从前一尺度 的聚类中心点出发,找到新的聚类中心,并对数据进行聚合归类。 步骤 3:如果类数大于1, 令 , 返回步骤2。 基于尺度空间的聚类算法 层次聚类 基于视觉模拟的聚类(模型) 未引入连续率的结果 引入连续率的结果 数据集 视觉聚类器结果 尺度空间聚类结果 具有显著密度差异性数据 流形结构数据 具有噪声的流形结 构数据 应用到各种复杂数据集: 图像分割 基于视觉模拟的聚类(应用举例) 基于视觉模拟的聚类(应用举例) 多结构人工数据聚类结果(1593) 工业CT图像体绘制分割(276万) 1965 个 Frey face (20*28维) 人脸上的聚类结果(表情的三种细微变化) 基于视觉模拟的聚类(应用举例) 已得到广泛应用: 地理数据分析(美国乔治亚大学Lan小组); 图像处理(美国马里兰大学DeMenthon小组); 蛋白质分析(比利时Namur大学Leherte小组); 中科环境与地理信息重点实验室GAMAX系统。 蛋白质分析 地理数据分析 图像处理 目录 第一部分 大数据及其面临的挑战 第二部分 大数据分析与处理中的关键科学问题 第三部分 关于若干大数据科学问题的研究 第四部分 结语 结语 开展大数据研究是时代要求、国家急需;聚焦大数据分析与处理是非常合适的切入点、具有基础、重大、交叉的显明特征; 具有突破的可能性。 重大计划拟国绕大数据分析与处理的“分析基础”与“处理算法”两大共性基础攻关,并通过“示范应用”来对大数据核心技术进行集成。 可预期若干基础理论上的突破和一批原创的核心技术(基础算法),推动大数据产业的可持续和科学化发展,为国家的大数据战略作出显著贡献。 谢 谢 * * * * * * * * * * * * * * * * * 关于若干大数据科学问题的探索 西安交大课题组的研究 超高维问题:稀疏建模理论与方法 大数据算法设计问题:方法论与分布式计算 非结构化信息处理问题:视觉模拟算法 关于超高维问题 大数据超高维问题 大数据超高维问题:“决策要素()伴随大数据规模(n)呈现更高量级”所 引起的解的不适定性与经典统计推断失效问题。经典统计学:n>>p; 高维问题:p>>n; 大数据高维问题:p=O(exp(n)), n ->∞. 线性模型: 数据: 基本科学问题 如何补足信息使问题可解? 高维统计推断 超高维数据的低维特征表示 研究热点:利用稀疏性先验(压缩感知、低秩分解、高阶与非线性稀疏) 关于高维问题的研究(稀疏性先验) (典则)稀疏性:信息表示的普遍属性。意指:一个观测中感兴趣的 信息单元在整个单元中仅占少数部分的性质。通常用表示向量x的非 零元素个数 刻画。 稀疏信号 稀疏图像 稀疏SAR场景 (线性)变换稀疏性:信息表示中更为普遍的属性,指在某个线性 变换A下,Ax具有典则稀疏性。(用 来刻画) 关于高维问题的研究(稀疏性先验) 社交网络 语义分析 结构稀疏性:以某种结构方式所呈现的稀疏性。主要用于刻画属性间的相依关系,是处理多视角、多通道信息融合的重要工具之一。 结构稀疏度量: 组间稀疏(q范数),组内合作(p范数) 特征提取 基因序列分析 [Jenatton 2010] 关于高维问题的研究(稀疏性先验) 关于高维问题的研究(稀疏性先验) 非线性稀疏性: 线性变换(表示)稀疏性向非线性的推广,即在 某个非线性变

文档评论(0)

喜宝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档