大数据分析对计算科学的挑战.ppt

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Vcluster: 算法 Vcluster Step 1. 输入尺度初始值 (不敏感) Step 2. 求响应矩阵 R(0) Step 3. 形成多尺度响应矩阵R(t) 并在固定 尺度下形成聚类 Step 4. 根据类生命周期确定最优聚类 Vcluster : 算法 示例 Calling format: Calling format: 原始 K均值 dp VCluster dp:Alex Rodriguez and Alessandro Laio. Science 344,1492(2014) Vcluster: 算法 与Science’s2014结果的比较:圆环和螺旋数据上参数对结果的影响对比 注:为体现算法的对比公平,Vcluster 特增加一个相同的参数,可见该算法对参数非常的鲁棒 Vcluster : 大数据算法变形 分布式变形 (直接可在Hadoop平台上运行) 进-步加速 (利用整数特性、用无穷范数球代替欧氏球) 应用到非数值型数据 (类似建立Webber观察系,例如对于文本数据,运用数据库的尺寸作为尺度计算词频) Vcluster大数据算法 网格剖分,确定可见点 在9-近邻网格中寻近邻点 利用并行处理方式调用算法 观察聚类数目变化表确定结果 Vcluster : 大数据应用 大数据近邻选取的网格剖分 各数据点分片后的并行处理 大数据算法实现 网格剖分,确定可见点 在9-近邻网格中寻近邻点 利用并行处理方式调用算法 观察聚类数目变化表确定结果 大数据集网格剖分示意图 Vcluster: 大数据应用 多结构人工数据聚类结果(1593) 工业CT图像体绘制分割(276万) 1965 个 Frey face (20*28维) 人脸上的聚类结果(表情的三种细微变化) 小结 基于视觉的多尺度信息处理机制,定义了Webber观察系( Webber眼镜),获得了数据集的全息聚类信息(全息矩阵),据此形成了一个模型简单、算法简单,但却十分有效的大数据聚类算法。 Vcluster适用于多种复杂结构的数据集,而且聚类个数不需事先设定;具有线性复杂性 O(knT),几乎完全自动化(不含本质参数)。 展 望 大数据算法的设计与分析是大数据技术的核心(bottleneck,MIT?technology?review) 正在探索,尚未形成方法论 尝试提出了大数据算法(分布式算法)的定义与设计原则。初步实践说明“精确为次、简单至上”等设计思路是可行的。 目录 第一部分 大数据与大数据研究 第二部分 大数据分析和挖掘计算科学的挑战 第三部分 第四部分 一个实验、两个实例 结语 结 语 欢迎批评指正! Vcluster所体现的美学 Webber眼镜提供不丢失信息下的全尺度观察描述方式(简单而高效的尺度离散化格式) 全息矩阵用一个简单的(整数)矩阵记录了对数据集的多尺度观察全息信息(并不通过像PDE、逐次滤波那样的的连续化描述),它既描述了多尺度溶合结果,也提供每一具体尺度下数据结构的描述 基于全息矩阵的简单处理即完成复杂的多尺度分析(层次聚类分析)任务,其简单性其它尺度方法不可比拟 简单、通用 Vcluster: 大数据应用 VCluster具有稀疏表达形式,复杂度O(knT) VCluster算法近邻的选择对结果影响 * * * * * * * 分布式回归算法:可行性理论 新的方法论:使用随机抽样不等同于估计假设条件误差( Random sampling inequality quantifies the fact that a differentiable function cannot attain its large values anywhere if its derivatives are bounded on a sufficiently dense discrete set ). ( Chang & Xu, , ICML 2014) 可行性理论 在一定的条件下, 基于Hadoop的回归算法在一致相合意义下是可行的。 (Xu,Zhang & Li, On the feasibility of distributed kernel regression for big data, 2015) 训练集样本个数100k, 测试集样本个数5k. 分布式回归算法:实验验证 数值实验1: Buzz in social media Twitter limit y in range [20,200], x with zero mean, unit variance 训练集样本个数174507,测试集样本个数19390 分布式回归算法:实验验证 数值实验2: 分布式回归算法:实验验

文档评论(0)

喜宝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档