大数据计算:理论、实践与标准化.pptx

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据计算:理论、实践与标准化

大数据计算:理论、实践与标准化 内容提要? 对大数据的理解 – 背景 – 大数据计算的“3-I”挑战? 大数据计算研究:北航初步实践––––理论方面:大数据计算的基础理论扩展系统方面:多核I/O栈的性能优化系统方面:高时效计算平台应用方面:基于社会网络的突发事件检测? 大数据的标准化:W3C的实践 – 开放数据 – W3C的Data Activity? 小结3 网络信息空间大数据? 规模巨大,快速变化1PB data in DVD: ~25km1ZB=1PB×106 Airplane 15,000m 互联网搜索?Baidu:1PB log data per Day. Handling 1000PB?Google:Processing 20PB data everyday 社会网络?4 Micro-blogger Provider in China:?800M Users, 200M tweets everyday, 20M+ Photos. IDC统计及预测?Data doubled every 18 months?Data in Cyberspace?IDC Report : ?2009: 0.8ZB ?2012: 2.7 ZB ?2020(E): 35ZBChomolungma 8,800m4大数据中广泛提到的“4V”特性 Velocity?Dynamic Changes?Updated constantly Value? Biz opportunity? Sensitive Data Volume?In PB or EB?Distributed data Variety?Heterogeneous?Semi-structuredor unstructured Wikipedialarge and complex datasets, which is quite difficult to process using existing data management tools, and traditional data processing applicationsData Deluge5大数据的挑战总体[Population]统计学的采样方法 统计分布假设检验等样本数据真实世界知识大数据的挑战总体[Population]统计学的采样方法 统计分布假设检验等样本数据真实世界 总体[Population’] 多源大 数据集 知识 基于模型的 预测 日志,传感设备 摄像头,社会网络周姑娘的人挖掘,学习预处理问题相关的采样数据 新的计算理论和 算法设计方法新的统计理论 和数学工具大规模分布式计算基础设施大数据的挑战总体[Population]统计学的采样方法 统计分布假设检验等样本数据真实世界 总体 [Population’]预处理 多源大 数据集 重采样?降维? 如何将大数据变小 知识 基于 挖掘,学习模型的 预测 如何从数据中寻找 知识并用于预测 日志,传感设备 摄像头, 社会网络周姑娘的人 数据质量?纠偏?如何让数据集代表总体??问题相关的采样数据??新的统计理论 和数学工具大规模分布式计算基础设施新的计算理论和 算法设计方法大数据的计算特征-3个I4-V ?用户强交 互性 ?跨多通道 快 Inexact 非精确 Datasets are inexact: Noisy, Erros.Target are inexact. Eg. to find the macro trends.?Avoid exact result to reduce cost?Inexact but acceptable Results大数据的计算特征-3个I4-VInexact 非精确Incremental 增量?Hard to get an Static View of Data?Batch/Full data is not enough Data arrives continueslyOnline/Realtime processing?用户强交互性?跨多通道快大数据的计算特征-3个I Features of Big Data Computing4-VInexact 非精确Incremental 增量 Inductive 归纳性Multi-source Datasets References between Datasets?Use the data correlations to adjust the errors?Transfer Learning?用户强交互性?跨多通道快973 大数据研究的几个问题? 问题1: 大数据计算有“新的”理论问题吗? 计算问题 算法可判定 问题 易解问题不可判定 问题 难解问题 数据– Good: PTIME–

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档