- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据深度学习与人工智能
大数据、深度学习与
人工智能
马尽文
北京大学数学科学学院信息科学系
/~jwma/
2018/5/24 马尽文 1
提纲
大数据的产生与挑战
深度学习的思想
深度学习技术的发展与应用
深度学习与人工智能
文本的数字化和智能化处理
总结与展望
2018/5/24 马尽文 2
1.大数据的产生与挑战
随着信息感知和检测技术的提高且储存材料的
快速发展,大批量数据的收集和存储越来越容
易,这样大数据便应运而生,人类也因此进入
了大数据时代。
当我们有能力记录足够多的数据时,则可以对
所关心的对象做到较全面的数据记录。如通过
监控录像、通话记录、消费记录、金融交易记
录、网上搜索查询信息记录下相关数据。
所呈现出来的是全体数据,而不再是随机样本。
样本分析是传统的统计学分析方法,而基于全
体数据的分析则需要新的数学模型和理论。
2018/5/24 马尽文 3
1.大数据的产生与挑战
对于无标签的大数据,目前的分析与挖掘不
再是发现因果关系 (通过模型的假设检验),
而是发现相关关系。而相关关系本身就可以
带来商业和研究(探索因果关系)的价值。
从无标签数据中发现某种现象、并通过关联
现象进行预测未来行为,则具有重要的价值。
即通过找出一个关联物并监控它的数据变化,
我们就可以预测未来。如汽车维修预测、井
盖爆炸监测等,也可做商品推荐(怀孕与婴
儿用品的)。
2018/5/24 马尽文 4
1.大数据的产生与挑战
对于带有标签的数据,大数据处理便成为一个
监督学习问题。由于大数据的出现,所要学习
的隐含于数据中的内在对应关系则变得异常复
杂,这无疑给机器学习的模型和算法带来了新
的挑战。
(i). 深层神经网络模型和深度学习算法。
(ii). 分布式处理与融合的方法。
(iii). 高斯过程混合模型(从时间和空间两
个尺度来解决分类和预测问题)。
2018/5/24 马尽文 5
2.深度学习的思想
谷歌大脑
2012年6月, 《纽约时报》报道了 Google Brain 项目,由
Andrew Ng 和 Geoffery Hinton 主导,采用 16000 核的并行计
算平台训练了一个“深度神经网络”,其大约有包含10 亿个节点,
在语音识别和图像识别领域获得巨大成功。
Andrew Ng 称:我们直接把海量数据投放到机器学习算法中,让数
据自己说话,系统自动从数据中学习。
Geoffery Hinton 称:我们在训练的时候,从来不会告诉机器“这是
一只猫”,但是系统自己发明或领悟了“猫”这个概念。
2018/5/24 马尽文 6
2.深度学习的思想
微软同声传译系统
2012年11月,微软在“二十一世纪的计算”大会上公开演示了一个全
自动的同声传译系统。
演讲者用英文演讲,后台的计算机一气呵成地完成语音识别 + 英中机
文档评论(0)