大数据-现状、反思与展望.pdf

侯越先 天津大学 2015-5-29 1  2014年度国家自然科学基金委立项144项, 其中经费额超过200万元的18项 2014年度统计(大数据产业发展白皮书2015)  全球大数据产业规模285亿美元,增幅53.2%  国内大数据产业规模75.7亿元,增幅28.4% 2 2015年度预测(Wikibon和易观国际):  全球大数据产业规模增至384亿美元,增幅34.7%  国内大数据产业规模增至98.9亿元,增幅30.7% 3 大数据发展白皮书2015  技术创新滞后严重制约产业发展  商业模式多集中在存储服务、简单统计服务等较成 熟的环节,缺少深度、综合的分析和整体解决方案 4 来源:大数据产业发展白皮书2015 5 研究者的反思 6 统计学家:对于独立同分布采样,50-100个数据点已 可以支持有必要统计显著性的推断 大数据鼓吹者:若干TB甚至若干PB级的数据规模,多模 数据来源、异构数据格式。。。 7 统计学家眼中的理想世界:  优美的生成模型  无系统偏差、弱噪声的采样  由中心极限定理支配的世界 8 1 n  理想世界中数据规模与参数估计误差的关系: 率 误差曲线 9 现实世界:比古典随机宇宙更混乱的宇宙  数据并不服从预设的优美模型  采样存在系统偏差  强相关(持续突发性、长程相关) 10  统计学家:强的先验和模型,仔细的模型选择  大数据鼓吹者A :更多的数据、更简单的模型  大数据鼓吹者B:尽可能多的数据,尽可能强的先验和模 型、仔细的模型选择 11  高维参数模型的辨识困难无法通过简单增加数据 量得到根本解决 例子:多布尔型变量分布(波尔兹曼机的一般化)  系统采样偏差、持续的突发性和长程相关带来的 困难无法通过简单增加样本量得到根本解决

文档评论(0)

1亿VIP精品文档

相关文档