机器学习专题课件.ppt

下载文档 降价啦

943
1
约3.14千字
约 115页
2018-07-31 发布于贵州
举报
版权申诉
保障服务

机器学习专题课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习专题课件

序;桑克（sank）：“一台计算机若不能进行学习，就不能说它具有智能” Simon（1983）：学习就是系统中的变化，这种变化使系统比以前更有效地去做同样的工作。无统一的机器学习定义。机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍严格的提法是:ML是一门研究机器获得新知识和新技能，并识别现有知识的学问 ; 人工智能主要是为了研究人的智能，模仿其机理将其应用于工程的科学。在这个过程中必然会问道：“机器怎样做才能像人类一样具有学习能力”。机器学习广泛应用于机器人、图像处理、语音识别、数据挖掘等领域。机器学习的发展有利于推动其他领域的发展。;预测难：学习后知识库发生了什么变化，系统功能的变化的预测。归纳推理：是论证的前提支持结论但不确保结论的推理过程(演绎推理保真);而且，归纳的结论是无限多的，其中相当多是假的，给生成的知识带来不可靠性。判断难：机器目前很难观察什么重要、什么有意义。 ;*;*;学习系统;;机器学习的分类;监督学习supervised learning;;;; 选取特定的机器学习算法进行分类，首先需要做的是训练算法，既学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集就是用于训练机器学习算法的数据样本集合，表1是包含5个样本集合的训练集，每个训练样本有4中特征和一个目标变量，目标变量是机器学习算法的预测结果既F(x)，其中x为一组输入样本。;损失函数; 常用的损失函数;经验风险最小化与结构风险最小化;奥卡姆剃刀原理：在所有可能的模型中，能够很好地解释已知数据并且十分简单的次啊是最好的模型，也是应该选择的模型。; 如果给定的样本数据充足，进行模型选择的一种简单方法就是随机地将数据切分成三部分，分别为训练集，验证集和测试集。训练集用来训练模型，验证机用于模型选择，测试集用于最终对学习方法的评估。在学习到不同的复杂度的模型中，选择对验证集有最小预测误差的模型。但是，许多实际应用中数据并不是充分的，为了选择好的模型，可以采用交叉验证的方法。交叉验证的基本思想是重复的使用数据；把给定的数据进行切分，将切分的数据集组合成训练集与测试集，在此基础上反复地进行训练，测试以及模型的选择。;（1）简单交叉验证：首先随机地将已给数据分为两部分，一部分作为训练集，另一部分最为测试集；然后用训练集在各种条件下训练模型，从而得到不同的模型，在测试集上评价各个模型的测试误差，选出测试误差最小的模型（2）S折交叉验证：首先随机的把已给的数据切分成s个互不相交的大小相同的子集，然后利用s-1个子集的数据训练模型，利用余下的自己测试模型；重复的随机选择训练子集，最后选出评测中平均测试误差最小的模型（3）留一交叉验证：当S=N时，成为留一交叉验证，这往往在数据缺乏的时候使用。 ;朴素贝叶斯算法;贝叶斯分类的基础——贝叶斯定理;基本流程;;;;;基于朴素贝叶斯的文本分类;;训练阶段;; 测试阶段;优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：对于输入数据的准备方式比较敏感。;决策树学习;由一个根结点，若干叶结点和非叶结点构成。根结点对应于学习任务，分类的开始。每个叶结点都包含一个分类名(概念)，表示一个实例的结束。每个非叶结点都包含表示相应实例中的某一属性。边代表某一属性可能的属性值。;从根节点到叶节点的每一条路径都代表一个具体的实例同一路径上的所有属性之间为合取关系，不同路径（即一个属性的不同属性值）之间为析取关系。决策树的分类过程就是从这棵树的根接点开始，按照给定的事例的属性值去测试对应的树枝，并依次下移，直至到达某个叶节点为止。 ;;昆兰（J.R.Quinlan）于1979年提出的一种以信息熵（entropy）的下降速度作为属性选择标准的一种学习算法。输入是一个用来描述各种已知类别的例子集学习结果是一棵用于进行分类的决策树 ;1.令根结点包含例子集中所有实例。 2.如果每个叶结点包含的例子都属于同一分类，则停止划分。 3.否则需对叶结点进行进一步划分： (1)需要进一步划分的叶结点所包含的例子组成子例子集S。 (2)找出对S来说E值最小的属性abest。 (3)根据属性abest的值对S进行划分，每个值将生成一个分枝。 (4) 执行步骤2。 ;;熵;设一个系统X由多个事件|Xi|（i=1，2,…,n）组成，事件Xi的概率为p(Xi)，那么信息熵定义为：;例：给出概率分布;;;狗的例子集;狗的例子集 ; E颜色.棕色＝ E颜色.黑色＝ ;E体形.大＝ E体