机器学习专题课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习专题课件

序;桑克(sank):“一台计算机若不能进行学习,就不能说它具有智能” Simon(1983):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。 无统一的机器学习定义。 机器学习是研究如何使用机器来模拟人类学习活动的一门学科。 稍严格的提法是:ML是一门研究机器获得新知识和新技能,并识别现有知识的学问 ; 人工智能主要是为了研究人的智能,模仿其机理将其应用于工程的科学。 在这个过程中必然会问道:“机器怎样做才能像人类一样具有学习能力”。 机器学习广泛应用于机器人、图像处理、语音识别、数据挖掘等领域。机器学习的发展有利于推动其他领域的发展。;预测难:学习后知识库发生了什么变化,系统功能的变化的预测。 归纳推理:是论证的前提支持结论但不确保结论的推理过程(演绎推理保真);而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性。 判断难:机器目前很难观察什么重要、什么有意义。 ;*;*;学习系统;;机器学习的分类;监督学习 supervised learning;;;; 选取特定的机器学习算法进行分类,首先需要做的是训练算法,既学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集就是用于训练机器学习算法的数据样本集合,表1是包含5个样本集合的训练集,每个训练样本有4中特征和一个目标变量,目标变量是机器学习算法的预测结果 既F(x),其中x为一组输入样本。;损失函数; 常用的损失函数;经验风险最小化与结构风险最小化;奥卡姆剃刀原理:在所有可能的模型中,能够很好地解释已知数据并且十分简单的次啊是最好的模型,也是应该选择的模型。; 如果给定的样本数据充足,进行模型选择的一种简单方法就是随机地将数据切分成三部分,分别为训练集,验证集和测试集。训练集用来训练模型,验证机用于模型选择,测试集用于最终对学习方法的评估。在学习到不同的复杂度的模型中,选择对验证集有最小预测误差的模型。 但是,许多实际应用中数据并不是充分的,为了选择好的模型,可以采用交叉验证的方法。交叉验证的基本思想是重复的使用数据;把给定的数据进行切分,将切分的数据集组合成训练集与测试集,在此基础上反复地进行训练,测试以及模型的选择。;(1)简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分最为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型 (2)S折交叉验证:首先随机的把已给的数据切分成s个互不相交的大小相同的子集, 然后利用s-1个子集的数据训练模型,利用余下的自己测试模型;重复的随机选择训练子集, 最后选出评测中平均测试误差最小的模型 (3)留一交叉验证:当S=N时,成为留一交叉验证,这往往在数据缺乏的时候使用。 ;朴素贝叶斯算法;贝叶斯分类的基础——贝叶斯定理 ;基本流程;;;;;基于朴素贝叶斯的文本分类;;训练阶段;; 测试阶段;优点: 在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式比较敏感。;决策树学习;由一个根结点,若干叶结点和非叶结点构成。 根结点对应于学习任务,分类的开始。 每个叶结点都包含一个分类名(概念),表示一个实例的结束。 每个非叶结点都包含表示相应实例中的某一属性。 边代表某一属性可能的属性值。;从根节点到叶节点的每一条路径都代表一个具体的实例 同一路径上的所有属性之间为合取关系,不同路径(即一个属性的不同属性值)之间为析取关系。 决策树的分类过程就是从这棵树的根接点开始,按照给定的事例的属性值去测试对应的树枝,并依次下移,直至到达某个叶节点为止。 ;;昆兰(J.R.Quinlan)于1979年提出的一种以信息熵(entropy)的下降速度作为属性选择标准的一种学习算法。 输入是一个用来描述各种已知类别的例子集 学习结果是一棵用于进行分类的决策树 ;1.令根结点包含例子集中所有实例。 2.如果每个叶结点包含的例子都属于同一分类,则停止划分。 3.否则需对叶结点进行进一步划分: (1)需要进一步划分的叶结点所包含的例子组成子例子集S。 (2)找出对S来说E值最小的属性abest。 (3)根据属性abest的值对S进行划分,每个值将生成一个分枝。 (4) 执行步骤2。 ;;熵;设一个系统X由多个事件|Xi|(i=1,2,…,n)组成,事件Xi的概率为p(Xi),那么信息熵定义为:;例:给出概率分布;;;狗的例子集;狗的例子集 ; E颜色.棕色= E颜色.黑色= ;E体形.大= E体

文档评论(0)

sanshengyuan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档