机器学习复习2.docVIP

下载本文档

2
0
约2.22千字
约 5页
2020-01-22 发布于广东
举报

机器学习复习2.doc

统计学习：统计方法处理过程的三个阶段搜集数据：采样、实验设计分析数据：建模、知识发现、可视化进行推理：预测、分类 SVM近似线性可分问题 SVM三种主要的核函数多项式内核、径向基函数内核RBF、Sigmoind内核决策树的生成过程强化学习：强化学习的四大要素 1、策略：从环境感知到的状态到该状态下应该采取的行动映射； 2、报酬函数：用来强化学问题的R标； 3、价位函数：与某一时刻(或状态)意义上反应行动结果好坏的报酬函数相对极，价值函数则指定了最终什么足好的； 4、环境的模型：这是为模仿环境的举动而建立的. 蒙特卡罗方法和吋序差分学习的主要区别 1.蒙特卡罗方法蒙特卡洛方法是一种以部分估计整体，利用随机数来解决问题的方法，其通过统计模拟或抽样以获得问题的近似解。该方法只是用于场景中存在终止状态的任务。MC策略评估主要是利用大数定律，以各个状态的回报值的样本平均来估计值函数，最终发现最优策略。 r(s) — averag^R.eturn(s)) 得到的回报金额已赋给第一次访间的s，也可以将每次访问到终止状态的回报平均后赋予给s的值函数。鉴于MC策略评估只有在只有在无穷次迭代时才能精确计算因此有人提出了改进策略，在一幕赋值完成后将用贪婪算法来更新以得到改进策略；Ty，这样有利于维持採索与利用的平衡，也提髙了的精确度。蒙特卡罗学习方法优点是不

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

机器学习复习2.docVIP