大数据分析对计算科学的挑战.ppt

下载文档 降价啦

5
0
约1.35万字
约 78页
2020-09-27 发布于江苏
举报
版权申诉
保障服务

大数据分析对计算科学的挑战.ppt

1、本文档共78页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Vcluster: 算法 Vcluster Step 1. 输入尺度初始值 (不敏感) Step 2. 求响应矩阵 R(0) Step 3. 形成多尺度响应矩阵R(t) 并在固定尺度下形成聚类 Step 4. 根据类生命周期确定最优聚类 Vcluster : 算法示例 Calling format: Calling format: 原始 K均值 dp VCluster dp：Alex Rodriguez and Alessandro Laio. Science 344,1492(2014) Vcluster: 算法与Science’s2014结果的比较：圆环和螺旋数据上参数对结果的影响对比注：为体现算法的对比公平，Vcluster 特增加一个相同的参数，可见该算法对参数非常的鲁棒 Vcluster : 大数据算法变形分布式变形（直接可在Hadoop平台上运行）进－步加速（利用整数特性、用无穷范数球代替欧氏球）应用到非数值型数据（类似建立Webber观察系，例如对于文本数据，运用数据库的尺寸作为尺度计算词频) Vcluster大数据算法网格剖分，确定可见点在9-近邻网格中寻近邻点利用并行处理方式调用算法观察聚类数目变化表确定结果 Vcluster : 大数据应用大数据近邻选取的网格剖分各数据点分片后的并行处理大数据算法实现网格剖分，确定可见点在9-近邻网格中寻近邻点利用并行处理方式调用算法观察聚类数目变化表确定结果大数据集网格剖分示意图 Vcluster: 大数据应用多结构人工数据聚类结果（1593）工业CT图像体绘制分割（276万） 1965 个 Frey face (20*28维) 人脸上的聚类结果(表情的三种细微变化) 小结基于视觉的多尺度信息处理机制，定义了Webber观察系（ Webber眼镜），获得了数据集的全息聚类信息（全息矩阵），据此形成了一个模型简单、算法简单，但却十分有效的大数据聚类算法。 Vcluster适用于多种复杂结构的数据集，而且聚类个数不需事先设定；具有线性复杂性 O(knT)，几乎完全自动化（不含本质参数)。展望大数据算法的设计与分析是大数据技术的核心（bottleneck，MIT?technology?review) 正在探索，尚未形成方法论尝试提出了大数据算法(分布式算法)的定义与设计原则。初步实践说明“精确为次、简单至上”等设计思路是可行的。目录第一部分大数据与大数据研究第二部分大数据分析和挖掘计算科学的挑战第三部分第四部分一个实验、两个实例结语结语欢迎批评指正！ Vcluster所体现的美学 Webber眼镜提供不丢失信息下的全尺度观察描述方式（简单而高效的尺度离散化格式) 全息矩阵用一个简单的（整数)矩阵记录了对数据集的多尺度观察全息信息(并不通过像PDE、逐次滤波那样的的连续化描述)，它既描述了多尺度溶合结果，也提供每一具体尺度下数据结构的描述基于全息矩阵的简单处理即完成复杂的多尺度分析(层次聚类分析)任务，其简单性其它尺度方法不可比拟简单、通用 Vcluster: 大数据应用 VCluster具有稀疏表达形式，复杂度O(knT) VCluster算法近邻的选择对结果影响 * * * * * * * 分布式回归算法:可行性理论新的方法论：使用随机抽样不等同于估计假设条件误差( Random sampling inequality quantifies the fact that a differentiable function cannot attain its large values anywhere if its derivatives are bounded on a sufficiently dense discrete set ). （ Chang & Xu, , ICML 2014）可行性理论在一定的条件下, 基于Hadoop的回归算法在一致相合意义下是可行的。 (Xu，Zhang & Li, On the feasibility of distributed kernel regression for big data, 2015) 训练集样本个数100k, 测试集样本个数5k. 分布式回归算法：实验验证数值实验1： Buzz in social media Twitter limit y in range [20,200], x with zero mean, unit variance 训练集样本个数174507，测试集样本个数19390 分布式回归算法：实验验证数值实验2：分布式回归算法:实验验