- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
127|数据科学家基础能力之概率统计
2017-10-10洪亮劼来自北京
《AI技术内参》
学习人工智能的工程师,甚至是在人工智能相关领域从业的数据科学家,往往都不重视概率统
计知识的学习和培养。有人认为概率统计知识已经过时了,现在是拥抱复杂的机器学习模型的
时候了。实际上,概率统计知识和数据科学家的日常工作,以及一个人工智能项目的正常运作
都密切相关,概率统计知识正在人工智能中发挥着越来越重要的作用。
和机器学习一样,概率统计各个领域的知识以及研究成果浩如烟海。今天我就和你聊一聊,如
何从这么繁多的信息中,掌握能够立即应用到实际问题中的概率统计知识,以及如何快速入手
一些核心知识,并能触类旁通学习到更多的内容。
使用概率的语言
概率统计中的“概率”,对于学习和掌握人工智能的诸多方面都有着举足轻重的作用。这里面
最重要的,恐怕要数概率论中各种分布的定义。初学者往往会觉得这部分内容过于枯燥乏味,
实际上,概率论中的各种分布就像是一门语言的基本单词,掌握了这些基本的“建模语言”单
词,才能在机器学习的各个领域游刃有余。
值得注意的是,目前火热的深度学习模型,以及在之前一段时间占领机器学习统治地位的概率
图模型(ProbabilisticGraphicalModels),都依赖于概率分布作为这些框架的基本建模语
言。因此,能够真正掌握这些分布就显得尤为重要。
对于分布的掌握其实可以很容易。只要对少量几个分布有一定的认识后,就能够很容易地扩展
开来。首先,当你遇到一个实际场景的时候,你要问自己的第一个问题是,这个场景是针对离
散结果建模还是针对连续数值建模?这是一个最重要的分支决策,让你选择正确的建模工具。
当面对离散结果的时候,最需要掌握的分布其实就是三个:
1.伯努利分布
2.多项分布
3.泊松分布
这三种分布是其他离散分布的重要基础。对于这三种分布,记忆其实也相对容易。比如,任何
时候,如果你的场景是一个二元问题(例如用户是否点击,是否购买),伯努利分布都是最直
接的选择。当你遇到的场景需要有多于两种选择的时候,那自然就用多项分布。另外,文本建
模常常可以看做这样一个问题,那就是在特定语境下,如何从上千甚至上万的可能性中选择出
最恰当的字词,因此多项分布也广泛应用在文本建模领域。泊松分布则常常用在对可数的整数
进行建模,比如一些物品的总个数。
了解应用场景和他们所对应的分布之间的联系,是掌握这些“语言”的重要环节。当你面临的
问题是连续数值的时候,绝大多数情况下,你需要掌握和理解正态分布,有时候称为高斯分
布。正态分布的重要性是再怎么强调都不为过的。任何你可以想到的场景,几乎都可以用正态
分布来建模。由于中心极限定理的存在,在大规模数据的情况下,很多其他分布都可以用正态
分布来近似或者模拟。因此,如果说学习概率知识中你只需要掌握一种分布的话,那无疑就是
正态分布。
在理解概率分布的过程中,还需要逐渐建立起关于“随机数”和“参数”的概念。衡量一个分
布是离散还是连续,指的是它产生的“随机数”是离散还是连续,和这个分布的“参数”没有
关系。比如伯努利分布是一个离散分布,但是伯努利分布的参数则是一个介于0和1之间的
实数。理解这一点常常是初学者的障碍。另外,建立起参数的概念以后,所有的分布就有了模
型(也就是分布本身)和参数的估计过程两个方面。这对理解机器学习中模型和算法的分离有
很直接的帮助。
当理解了这些概率最基础的语言以后,下面需要做的就是,了解贝叶斯统计中,怎么针对概率
分布定义先验概率,又怎么推导后验概率。
了解贝叶斯统计不是说一定要做比较困难的贝叶斯估计,而是说,怎么利用先验概率去对复杂
的现实情况进行建模。比如说,针对用户是否购买某一件商品而言,这个问题可以用一个伯努
利分布来建模。假如我们又想描述男性和女性可能先天上就对这个商品有不同的偏好,这个时
候,我们就可以在伯努利分布的参数上做文章。也就是说,我们可以认为男性和女性拥有不同
的参数,然而这两个参数都来自一个共同的先验概率分布(也可以认为是全部人群的购买偏
好)。那么这个时候,我们就建立起了一个具有先验的模型来描述数据。这个思维过程是需要
初学者去琢磨和掌握的。
假设检验
如果说概率基础是一般学习人工智能技术工程师和数据科学家的薄弱环节,假设检验往往就是
被彻底遗忘的角落。我接触过的很多统计背景毕业的研究生甚至博士生,都不能对假设检验完
全理解吃透。实际上,假设检验是现实数据分析和数据产品得以演化的核心步骤。
对于一款数据产品,特别是已经上线的产品来说,能够持续地做线上A/B测试,通过A/B测
试检测重要的产品指标
您可能关注的文档
- 057-基于深度学习的搜索算法:局部和分布表征下的搜索模型【萌萌家】.pdf
- 058-简单推荐模型之一:基于流行度的推荐模型【萌萌家】.pdf
- 061-基于隐变量的模型之一:矩阵分解【萌萌家】.pdf
- 062-基于隐变量的模型之二:基于回归的矩阵分解【萌萌家】.pdf
- 066-高级推荐模型之三:优化复杂目标函数【萌萌家】.pdf
- 067-推荐的Exploit和Explore算法之一:EE算法综述【萌萌家】.pdf
- 068-推荐的Exploit和Explore算法之二:UCB算法【萌萌家】.pdf
- 070-推荐系统评测之一:传统线下评测【萌萌家】.pdf
- 071-推荐系统评测之二:线上评测【萌萌家】.pdf
- 073-现代推荐架构剖析之一:基于线下离线计算的推荐架构【萌萌家】.pdf
最近下载
- 2025版高考英语一轮总复习语境助记选择性必修第三册Unit4AdversityandCourage.doc VIP
- 【推荐】(完整word版)骨伤科常见病及优势病种中医诊疗方案.docx VIP
- 土方开挖与基坑支护及降水工程施工方案.pdf VIP
- 空调维修方案简述.docx
- GNSS 导航器GP-170中文操作说明书.pdf
- 凯恩帝k1tbiii数控系统说明书.docx
- 2025版高考英语一轮总复习选择性必修第三册Unit4AdversityandCourage课件.pptx VIP
- 矿山事故应急救援演练方案.pdf VIP
- 相交线与平行线40道压轴题型专项训练(8大题型)原卷版—2024-2025学年人教版七年级数学下册.pdf VIP
- 骨伤科常见病及优势病种中医诊疗方案文献.docx VIP
文档评论(0)