大数据研究与实践.ppt

下载文档

5
0
约2.54万字
约 161页
2017-05-29 发布于四川
举报
版权申诉
保障服务

大数据研究与实践.ppt

1、本文档共161页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* We deeply appreciate Google and the group of HPC for providing such a great opportunity to learn Mass Data Computing techniques. Many thanks to the instructor Kang Chen and the TA Yubing Yin, for their warm-hearted guide and help. We have experienced a good class these days. The projects are all good, but the time seems to be a little short to finish all the work. Many thanks to our teacher Mr. Chen and TA Yubing. This five weeks is a nice experience for me and Ive never taken a course in all the 3 years that makes me so enthusiastic for it. 学生报告中的反馈 * 学生的实验情况：网络应用程序构建，物理系统的模拟，机器学习算法的并行化。 “学习到很多平时课堂上学不到的知识” 同学的课后总结。 Google公司参与最后的评定，很多大实验项目被认为具有研究生的水平。教学效果与评价 * 课程对于全国高校的影响举办了有关此课程的全国著名高校研讨班，第一期：北京大学，上海交通大学，浙江大学，华中科技大学，北京科技大学第二期：北京邮电大学，北京交通大学，北京信息科技大学，北京大学，上海交通大学，复旦大学，同济大学，中山大学，华南理工大学，南京大学，东南大学，西安交通大学，中国科学技术大学，电子科技大学，兰州大学，烟台大学，大连理工大学，四川大学，天津大学，辽宁师范大学换一个图 * 认为: 本页要讲清楚网络大数据为什么重要！！ * 大数据的研究是产业升级的关键问题 * * 对于大数据的表示方法研究主要集中于压缩传感等方面的研究。GFS、HDFS、MooseFS等分布式文件系统提供了对大数据的存储支持。Hadoop是大数据处理的主流计算模型，微软研究院的Dryad则在保证可扩展性的同时提供了更加灵活的编程接口。针对大数据问题中最常见的图计算问题，Google的Pregel和基于Hadoop的Hama都是标准的BSP（Bulk Synchronize Parallel）并行计算模型。在各种计算模型之上，有专门的数据查询工具，如Hive，Shark等提供类SQL的数据查询方式。面向数据挖掘等数据分析方法，Mahout、Mlbase等针对分布式计算环境对常用机器学习算法做了优化。针对图计算，GraphLib提供了灵活、全面（既包括大数据处理，也包括大数据查询分析）的实现（支持Hadoop，也支持MPI，或者非分布式和并行环境） * * * * * * * * * * * * * * * * 13种资金类别为：企业职工基本养老保险；城镇居民社会养老保险；城乡居民社会养老保险；新型农村社会养老保险；机关事业单位养老保险；被征地农民养老保险；城镇职工基本医疗保险；城镇居民基本医疗保险；城乡居民基本医疗保险；新型农村合作医疗保险；失业保险；工伤保险；生育保险一个小立方代表一个小碎片 Disk: one dimensional array of blocks Poorer vertex locality because of larger (infinite) edge array Map/reduce, disc, stream,都有什么问题。我们要做什么什么， * 探索应用负载的特征表达及状态约简方法，通过应用负载的分类和聚类实现基准测试程序的自动标识，建立代表性大数据计算基准测试程序集合建立各种复杂条件下大数据计算系统运行时的性能行为模型,提出以小规模情况下的性能行为预测真实大系统环境性能的性能推演方法研究体现大数据应用共性访问特征的富语义编程模型，降低编程难度，并方便针对多个应用进行统一优化探索软硬件协同的数据和计算双向流动理论，研究感知、存储与计算融合的大数据分布策略与约简方法 * * SSD上的多快照数据布局图在SSD上的保存形式边的数组多份图快照大量数据冗余基准 +增量 D1: 当n很大时,vertex的局部性会很差，要获得SSn代价很大快照组 n可根据情况调整 SS0 SS1 SSn