机器学习复习2.docVIP

  • 2
  • 0
  • 约2.22千字
  • 约 5页
  • 2020-01-22 发布于广东
  • 举报
统计学习: 统计方法处理过程的三个阶段 搜集数据:采样、实验设计 分析数据:建模、知识发现、可视化 进行推理:预测、分类 SVM近似线性可分问题 SVM三种主要的核函数 多项式内核、径向基函数内核RBF、Sigmoind内核 决策树的生成过程 强化学习: 强化学习的四大要素 1、 策略:从环境感知到的状态到该状态下应该采取的行动映射; 2、 报酬函数:用来强化学问题的R标; 3、 价位函数:与某一时刻(或状态)意义上反应行动结果好坏的报酬函数相对极,价值函数 则指定了最终什么足好的; 4、 环境的模型:这是为模仿环境的举动而建立的. 蒙特卡罗方法和吋序差分学习的主要区别 1.蒙特卡罗方法 蒙特卡洛方法是一种以部分估计整体,利用随机数来解决问题的方法,其通过统计模拟 或抽样以获得问题的近似解。该方法只是用于场景中存在终止状态的任务。MC策略评估主 要是利用大数定律,以各个状态的回报值的样本平均来估计值函数,最终发现最优策略。 r(s) — averag^R.eturn(s)) 得到的回报金额已赋给第一次访间的s,也可以将每次访问到终止状态的回报平均后 赋予给s的值函数。 鉴于MC策略评估只有在只有在无穷次迭代时才能精确计算因此有人提出了改进 策略,在一幕赋值完成后将用贪婪算法来更新以得到改进策略;Ty,这样有利于维持採 索与利用的平衡,也提髙了 的精确度。 蒙特卡罗学习方法优点是不

文档评论(0)

1亿VIP精品文档

相关文档