贝叶斯线性回归Bayesian-Linear-Regression.docxVIP

下载本文档

12
0
约7.1千字
约 13页
2018-05-07 发布于福建
举报
版权申诉

贝叶斯线性回归Bayesian-Linear-Regression.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

贝叶斯线性回归Bayesian Linear Regression原文地址关于参数估计极大似然估计渐进无偏渐进一致最大后验估计贝叶斯估计贝叶斯估计核心问题贝叶斯估计第一个重要元素贝叶斯估计第二个重要元素贝叶斯估计的增量学习贝叶斯线性回归贝叶斯线性回归的学习过程贝叶斯回归的优缺点贝叶斯脊回归Bayesian Ridge Regression本文的研究顺序是：极大似然估计最大后验估计贝叶斯估计贝叶斯线性回归关于参数估计在很多的机器学习或数据挖掘的问题中，我们所面对的只有数据，但数据中潜在的概率密度函数是不知道的，其概率密度分布需要我们从数据中估计出来。想要确定数据对应的概率密度分布，就需要确定两个东西：概率密度函数的形式?和?概率密度函数的参数。有时可能知道的是概率密度函数的形式(高斯、瑞利等等)，但是不知道具体的参数，例如均值或者方差；还有的时候可能不知道概率密度的类型，但是知道一些估计的参数，比如均值和方差。关于上面提到的需要确定的两个东西：概率密度函数的形式和参数，至少在机器学习的教课书上，我所看到的情况都是：给了一堆数据，然后假设其概率密度函数的形式为?高斯分布?，或者是混合高斯分布，那么，剩下的事情就是对高斯分布的参数，μ?和?σ2?进行估计。所以，参数估计，便成了极其最重要的问题。其实，常用的参数估计方法有：极大似然估计、最大后验估计、贝叶斯估计、最大熵估计、混合模型估计。他们之间是有递进关系的，想要理解后一个参数估计方法，最好对前一个参数估计有足够的理解。要想清晰的说明贝叶斯线性回归，或者叫做贝叶斯参数估计，就必须对极大似然估计、最大后验估计做详细的说明，他们之间是有递进的关系的。极大似然估计在之前《多项式回归》的文章中，用最后一小节是线性回归的概率解释，其中就说明了以平方误差维损失函数的最小二乘法和极大似然估计的等价性，在这个基础上，本文更为详细的讨论极大似然估计。这里先以一个分类问题来说明一般参数估计面对的数据形式。考虑一个M类的问题，特征向量服从p(x|ωi),i=1,2...,M?分布。这是现实情况中最常见的一种数据存在形式，数据集合X是由M个类别的数据子集Xm,m=1,2...,M?组成的，第m类别的数据子集Xm?对应的概率密度函数是p(x|ωm)。前面已经介绍过了，想要确定数据的概率分布，需要知道概率密度函数的?形式?和?参数，这里首先做一个基本假设：概率分布的形式已知，比如假设每个类别的数据都满足高斯分布，那么，似然函数就可以以参数??θi?的形式表示，如果是高斯分布，则参数为μi和σ2i，即θi=(μi,σ2i)。为了强调概率分布p(x|ωi)和?θi?有关，将对应的概率密度函数记为p(x|ωi;θi)，这种记法属于频率概率学派的记法。这里的极大似然估计对应于一个类条件概率密度函数。在概率论中一直有两大学派，分别是频率学派和贝叶斯学派。简单点说，频率学派认为，概率是频率的极限，比如投硬币，当实验次数足够大时，正面朝上的频率可以认为是这枚硬币正面朝上的概率，这个是频率学派。但是，如果要预测一些未发生过的事情，比如，北极的冰山在2050年完全融化的概率，由于这个事情完全没有发生过，所以无法用频率来代替概率表示，只能研究过去几十年，北极冰山融化的速率，并将其作为先验条件，来预测北极的冰山在2050年完全融化的概率，这就是概率的贝叶斯学派。上面的问题，如果用贝叶斯学派的记法的话，是：p(x|ωi,θi)。这两个学派适用的情况不太一样，但是，在我目前所用到的概率论的知识中，貌似这两个学派并没有什么太大的区别，只是记法略有不同，稍微注意下即可。从上面的描述中可以知道，利用每一个类Xi中已知的特征向量集合，可以估计出其对应的参数θi。进一步假设每一类中的数据不影响其他类别数据的参数估计，那么上面的M个类别的参数估计就可以用下面这个统一的模型，独立的解决：设x1,x2,...,xN?是从概率密度函数p(x;θ)中随机抽取的样本，那么就可以得到联合概率密度函数?p(X;θ)，其中X={x1,x2,...,xN}?是样本集合。假设不同的样本之间具有统计独立性，那么：p(X;θ)≡p(x1,x2,...,xN;θ)=∏k=1Np(xk;θ)注意：这里的p(xk;θ)?本来的写法是?p(x|ωi;θi)?, 是一个类条件概率密度函数，只是因为这里是一个统一的模型，所以可以将wi?省略。需要重申一下，想要得到上面这个公式，是做了几个基本的假设的，第一：假设M个类别的数据子集的概率密度函数形式一样，只是参数的取值不同；第二：假设类别i中的数据和类别j中的数据是相互独立抽样的，即类别j的参数仅仅根据类别j的数据就可以估计出来，类别i的数据并不能影响类别j的参数估计，反之亦然；第三：每个类别内的样本之间具有统计独立性，即每个类别内的