- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘基础讲座概率统计、随机过程、信息论基础邱胜科课程的性质短时间讲多内容《数学分析讲》辛钦(国立莫斯科大学)数据挖掘课程上所需要的概率统计、随机过程、信息论知识结合工作中数据挖掘、统计中的学习体会概率论随机变量和概率分布联合分布、条件分布和独立性概率分布的特征联合与条件分布特征一些重要的分布数理统计估计量的有限样本性质估计量的大样本性质(大数定律、中心极限定理)参数估计区间估计和置信区间信息论熵、相对熵、信息量、互信息渐进均分性(信息论中的大数定律)信息论与统计科尔莫戈罗夫复杂性(奥克姆剃刀)随机过程马尔可夫过程隐马尔可夫模型 且 随机变量和概率分布离散随机变量:取值至多可数的随机变量为离散型的随机变量。概率分布(分布律) 且 典型的离散随机变量分布0-1分布:p+q=1,p0,q0,则称X服从参数为p的0-1分布,或两点分布,还可以表示成: 且 典型的离散随机变量分布二项分布:二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。 且 典型的离散随机变量分布泊松分布:连续的随机变量分布分布函数:定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有: 则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。型随机变量的概率密度f(x)有如下性质:典型的连续随机变量分布均匀分布:若连续型随机变量X具有概率密度,则称均匀分布:典型的连续随机变量分布指数分布:典型的连续随机变量分布正态分布(高斯分布):典型的连续随机变量分布正态分布(高斯分布)特点(为何如此重要):中心极限定理的完美体现分布的值非常集中的分布在中心区域面积可以精确的计算出来典型的连续随机变量分布幂律分布(长尾分布):没有明确的代数式子分布趋向于0的速度远小于指数分布典型的连续随机变量分布判断方法:典型的连续随机变量分布真实的分布:社交网站用户数量和用户关注度数量的分布网络终端结点之间RTT值的分布(密度函数)典型的连续随机变量分布幂律分布的重要:大量社会规律服从,实践中常遇到,大数据领域经常遇到数学期望发散,不要用均值来替代整体分布大数定律和中心极限定理不成立典型的连续随机变量分布幂律分布的应用:数学期望如果X是在概率空间(Ω,?P)中的一个随机变量,那么它的期望值E[X]的定义是:方差方差:一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。μ为平均数,N为样本总数方差离散和连续随机变量方差计算:中位数中位数:对数据集中趋势的一个度量。定义:连续随机变量概率密度函数中,左边和右边刚好相等的位置。离散随机变量中的中间值。特点:数据约不平衡,中位数和数学期望相差越大。幂律分布下,观察样本数据的数学期望和中位数之间差值的变化。联合分布、条件分布和独立性协方差:涵义:协方差度量两个随机变量的线性相关性,正值代表同向移动,负值代表反向移动。独立? 协方差为0,反过来不正确相关系数相关系数:sd(X),sd(Y) 代表标准差条件数学期望离散变量: 给定 X的条件数学期望连续变量:联合概率密度函数Y边缘概率密度函数条件概率密度函数条件数学期望数理统计估计量的有限样本性质估计量的大样本性质(大数定律、中心极限定理)参数估计区间估计和置信度假设检验估计量性质无偏性W为参数u的一个估计量,h为函数有效性:样本方差小的那个估计量估计量性质一致性:估计量的趋势特性大数定律中心极限定理排除了原始分布的影响,只要期望方差存在。其存在有一定的假设中心极限定理随机变量独立服从同一分布期望、方差存在并有限幂律分布第三个条件不满足参数估计矩估计将参数 表示成与 X 分布的某些期望有某种关系,通常是 E(X)有关系的量, ,如果样本均值 是 E(X)的无偏并且一致估计量, 是线性函数因此依然无偏,则可用样本矩 代替总体矩最大似然估计最大似然估计似然函数:关于 的函数区间估计和置信区间区间估计的必要性点估计+样本的标准差 不足以给出总体值落在相对于样本值的什么地方置信区间的理解问题充分统计量充分统计量[2] p83 充分统计量是一个关于样本D的函数s,其中包含了能够有助于估计某种参数 的所有相关的信息样本均值和样本(协)方差构成了真实均值和协方差的一个充分统计量充分统计量Hadoop适合处理的统计量信息论对充分统计量的估计信息论熵、相对熵、信息量、互信息渐进均分性(信息论中的大数定律)信息论与统
您可能关注的文档
最近下载
- EXC9000励磁系统简介.ppt VIP
- 状语从句时间状语从句.pptx VIP
- 2024山东城市建设职业学院招聘笔试真题及参考答案详解.docx VIP
- 13685光与色彩自考课程.docx VIP
- 2024年山东城市建设职业学院招聘笔试真题附答案详解.docx VIP
- 重症自身免疫性脑炎监测与治疗中国专家共识(2024版).pptx
- 2024山东城市建设职业学院招聘笔试真题附答案详解.docx VIP
- 商用车推力杆多自由度动态载荷耐久试验方法201106.pdf VIP
- “体文旅”融合发展:概念重构、内涵解析与演进历程.docx VIP
- 《检验检测机构资质认定评审准则》试题及标准答案.docx VIP
文档评论(0)