侯越先
天津大学
2015-5-29
1
2014年度国家自然科学基金委立项144项,
其中经费额超过200万元的18项
2014年度统计(大数据产业发展白皮书2015)
全球大数据产业规模285亿美元,增幅53.2%
国内大数据产业规模75.7亿元,增幅28.4%
2
2015年度预测(Wikibon和易观国际):
全球大数据产业规模增至384亿美元,增幅34.7%
国内大数据产业规模增至98.9亿元,增幅30.7%
3
大数据发展白皮书2015
技术创新滞后严重制约产业发展
商业模式多集中在存储服务、简单统计服务等较成
熟的环节,缺少深度、综合的分析和整体解决方案
4
来源:大数据产业发展白皮书2015
5
研究者的反思
6
统计学家:对于独立同分布采样,50-100个数据点已
可以支持有必要统计显著性的推断
大数据鼓吹者:若干TB甚至若干PB级的数据规模,多模
数据来源、异构数据格式。。。
7
统计学家眼中的理想世界:
优美的生成模型
无系统偏差、弱噪声的采样
由中心极限定理支配的世界
8
1 n
理想世界中数据规模与参数估计误差的关系: 率
误差曲线
9
现实世界:比古典随机宇宙更混乱的宇宙
数据并不服从预设的优美模型
采样存在系统偏差
强相关(持续突发性、长程相关)
10
统计学家:强的先验和模型,仔细的模型选择
大数据鼓吹者A :更多的数据、更简单的模型
大数据鼓吹者B:尽可能多的数据,尽可能强的先验和模
型、仔细的模型选择
11
高维参数模型的辨识困难无法通过简单增加数据
量得到根本解决
例子:多布尔型变量分布(波尔兹曼机的一般化)
系统采样偏差、持续的突发性和长程相关带来的
困难无法通过简单增加样本量得到根本解决
您可能关注的文档
最近下载
- 心脑血管的危害和防治.ppt
- 上海2024年高考英语试卷.doc VIP
- 2026春新版人教版八年级下册单词默写单词表(全)U1-U8中译英.docx
- 07 王涛-教师资格-数学学科知识与教学能力(高中)-第三部分第五章至第八章(46-48讲).pdf VIP
- 《业财一体化实训教程-----金蝶云星空V7.5》.pptx VIP
- 2014广东粤西北事业单位考试真题及答案——通用类.doc VIP
- 基于PLC的运料小车自动控制设计研究.docx VIP
- ISO 9001(DIS)-2026《质量管理体系——要求》(含附录使用指南-中文版-译-2025年9月).docx VIP
- 《宋代点茶文化与艺术》全套教学课件.pptx
- 年产3000吨猕猴桃果汁工厂设计_毕业设计.doc VIP
原创力文档

文档评论(0)