人工智能20课件.ppt

下载文档 降价啦

6
0
约2.57千字
约 29页
2017-08-16 发布于湖北
举报
版权申诉
保障服务

人工智能20课件.ppt

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工智能20课件

人工智能　━━　一种现代方法云南大学施心陵讲授第二十章统计学习方法统计学习方法概述统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。统计学习方法：传统方法模糊集粗糙集支持向量机 … 贝叶斯学习贝叶斯学习 H：糖果包的类型 h1: 100%樱桃 h2: 75%樱桃 + 25%酸橙 h3: 50%樱桃 + 50%酸橙 h4: 25%樱桃 + 75%酸橙 h5: 100%酸橙 P(H)=(0.1, 0.2, 0.4, 0.2, 0.1) 贝叶斯学习最大后验假设（MAP假设）贝叶斯网络的最大似然参数学习樱桃的比例θ，一组连续假设hθ 剥开N颗糖，c 颗樱桃，l=N-c 颗酸橙，则似然概率：P(d|hθ) = θc(1-θ) l (独立同分布）多参数情况最大似然学习贝叶斯学习期望最大化（EM）算法隐变量（潜变量）期望最大化（EM）算法期望最大化（EM）算法无参数学习邻域包含k个点，即由距x点最近的k个点的特性估计x的特性。核模型：将每个训练实例当做一个密度函数——核函数K(x, xi)，密度估计：支持向量机（SVM）支持向量机（SVM）支持向量机（SVM）支持向量机（SVM）支持向量机（SVM）支持向量机（SVM）最大间隔： 1.尽可能将两类训练数据分开 2.学习得到的线性分类器，其对未知样本的预测能力和分类器间隔有如下关系： R(w) = Remp(w) + Φ(1/margin) 结构风险最小化支持向量机（SVM）支持向量机（SVM）最大间隔问题可转化为求解二次优化问题不等式约束条件下的二次函数寻优问题，存在唯一解 α*=(α1* ,α 2* , …,α n*)T 线性近似可分引入松弛变量ξi≥0，将约束条件放松为：两个目标：1.间隔2/||w||尽量大 2. 错分∑ξi 尽可能小线性近似可分对偶问题：线性不可分求解最优化问题： 0871-5031301 * * / 16 jhzhang@ynu.edu.cn 信息学院人工智能—— 一种现代方法人工智能—— 一种现代方法信息学院 20.1 统计学习 20.2 完整数据下的学习 20.3 隐变量学习：EM算法 20.4 无参数学习 20.5 支持向量机贝叶斯学习：利用观察结果更新在假设上的先验分布，把学习形式化地表示为概率推理的一种形式。由所有可能的假设进行预测。 H为假设变量，取值h1, h2, h3…, 假设的先验概率P(hi) 第j个观察数据dj为随机变量的Dj的取值训练数据 d = d1，…, dn 每个假设的后验概率预测：假设hi下数据的似然连续取出10颗酸橙应该是什么包裹？下一颗取出的会是什么？ i.i.d.过程，即为真的假设主导了贝叶斯预测，且预测是最优的，和数据集的大小无关。贝叶斯预测假设空间通常很大（6个属性，226）近似方法：由单一的最可能假设进行预测，即选择hMAP = argmax{P(hi|d)=P(d|hi)P(hi)}，由hMAP 预测 ——最大后验假设（MAP） hMAP = argmax{ logP(d|hi) + logP(hi) } = argmin{ -logP(d|hi) - logP(hi) } -logP(hi)：指定假设hi 所需的位数 -logP(d|hi)：在给定假设下指定数据所需的附加位数 MAP学习就是要选择提供最大的数据压缩的假设 ——最小描述长度学习算法。当先验概率分布为均匀分布，则MAP退化为： hML = argmax{P(d|hi)} ——最大似然假设 1、写出数据的似然表达式，它是待学习参数的一个函数。 2、对每个参数的对数似然进行求导。 3、找到满足导数为0的对应参数值。观察N颗糖，rc颗樱桃是红色糖纸，gc颗是绿色糖纸；rl颗酸橙是红色糖纸，gl颗是绿色糖纸。连续模型：学习线性高斯模型（具有连续的父变量X和连续的子变量Y）最大化最小化误差平方和：当被观察到的数据集很小时最大似然假设学习方法有较大缺陷。 Θ Flavor1 Flavor2 Flavor3 Wrapper1 Wrapper2 Wrapper3 Θ1 Θ2 对参数的可能值设置一