- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BM层内神经元有连接 * RBM模型中,给定状态(V,h),能量函数 * * * * * * * * * * * 受限Boltzmann机网络结构 §6.3 受限Boltzmann机 两层结构— 可见层(Visible layer):描述观测数据 隐藏层 (hidden layer):获取可见层单 元对应变量之间依赖关系(特征提取层) 二分图—层内无连接,层间全互连 所有神经元都是二值的 当给定可见层神经元状态时,各隐藏层神经元的激活条件独立;反之,当给定隐藏层神经元状态时,可见层神经元的激活也条件独立 受限Boltzmann机网络结构 §6.3 受限Boltzmann机 RBM中参数 6.3.2 能量函数与概率分布 §6.3 受限Boltzmann机 RBM模型中,给定状态(V,h)能量函数 状态(V,h)的联合概率分布 归一化因子 观测数据V、隐藏变量h分别对应的概率分布 边缘分布 能量函数与概率分布 §6.3 受限Boltzmann机 给定可见层状态v,可以推导隐藏层上某个神经元被激活的概率 同样可推导可见层上某个神经元被激活的概率 6.3.3 RBM参数训练方法---对数似然函数 §6.3 受限Boltzmann机 θ是RBM的参数{W, a, b}, 其中,W为可见单元和隐藏单元之间权重,b和a分别为可见单元和隐藏单元的偏置 其中Z(θ)是归一化因子 给定训练样本,训练RBM参数,拟合给定的训练样本,使得在该参数下由RBM表示的概率分布尽可能符合训练数据 可见变量v和隐藏变量h的联合配置的能量为 v和h的联合概率 6.3.3 RBM参数训练方法---对数似然函数 §6.3 受限Boltzmann机 已知独立同分布( i.i.d.)训练样本, 训练RBM就是最大化如下对数似然函数: 权(W)的更新计算: 最大化观测数据的似然函数P(v)可以由P(v,h)对h的边缘分布得到 6.3.4 RBM参数训练方法---梯度计算 §6.3 受限Boltzmann机 给定训练样本,训练RBM参数,拟合给定的训练样本,使得在该参数下由RBM表示的概率分布尽可能符合训练数据 上面计算复杂度较高,常采用Gibbs采样方法采样,再用采样样本估计 采用Gibbs采样,问题: (1)需要足够次数的状态转移才能保证采样样本符合目标分布 (2)需要大量样本 6.3.5 RBM参数训练方法---对比散度 §6.3 受限Boltzmann机 RBM目标就是要拟合训练样本分布,要MCMC的状态以训练样本为起点,减少状态转移次数,这就是2002年Hinton提出的对比散度(CD)方法,这是训练RBM的标准方法。 问题:.∞ 的计算可采样MCMC,但是很慢,并且要受到估计梯度巨大差异 最大化数据的log概率与最小化KL散度相同 因此,定义CD 其中,n是小数 用CDn乘以学习率作为权值更新,更新方向不再是梯度方向(梯度近似) 6.3.5 RBM参数训练方法---对比散度 §6.3 受限Boltzmann机 通过随机梯度下降(stichastic gradient descent)来最大化L(θ),先L(θ)对W的导数 经过简化可以得到: 其中 只需要求vihj在全部数据集上的平均值即可 在RBM,在两个单元之间特别的权值计算变为 后一项与模型有关 6.3.5 RBM参数训练方法---对比散度 §6.3 受限Boltzmann机 关于计算问题—— 涉及到v,h的全部2|v|+|h|种组合,计算量非常大(基本不可解)。Hinton等人提出了一种高效的学习算法-CD,其基本思想如下图所示: 先由数据v得到h的状态,再通过h来重构可见向量v1,然后,再由v1生成新的隐藏向量h1。 因RBM的特殊结构(层内无连接,层间有连接), 因此,在给定v时,各个隐藏单元hj的激活状态之间是相互独立的,反之,在给定h时,各个可见单元的激活状态vi也是相互独立的。 6.3.5 RBM参数训练方法---对比散度 §6.3 受限Boltzmann机 关于计算问题—— 重构的可见向量v1和隐藏向量h1就是对P(v,h)的一次抽样,多次抽样得到的样本集合可以看做是对P(v,h)的一种近似,易于计算 6.3.6 RBM的权学习算法 §6.3 受限Boltzmann机 (1)取一个样本数据,把可见变量的状态设置为这个样本数据。随机初始化W。 (2)根据P(h|V)更新隐藏变量的状态,亦即hj以P(hj=1|v)的概率设置为状态1,否则为0。再对每个边vihj,计算Pdata(vihj) = vi * hj (注意,vi和hj的状态都是取{0,1})。---“正梯度” (3)根据h的状态和式P(V|h)来重构v1,并根据v1和P(h|V)
文档评论(0)