- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
概述《机器学习简明教程》高延增侯跃恩罗志坚机械工业出版社01
目录/Contents1.11.2理解机器学习一些相关概念1.3机器学习的发展1.4开发环境准备
1.1理解机器学习——一个例子网站怎样在海量的电影库中找出少数几部你可能喜欢的电影呢?这背后的推荐逻辑是什么?
1.1理解机器学习——一个例子预先对影片库里的电影进行处理,给它们设计一些特征,能够用这些特征来描述电影;对网站的用户进行数据标注;记录历史数据,包括所有电影被观看情况、所有用户观看电影的情况等。收集、记录数据只是第一步,还需要大量的数据处理工作,才能更好利用这些数据中蕴藏的大量信息。机器学习并不是预先定义好的固定代码,而是从历史数据中推导出来的。
1.1理解机器学习——计算电影相似性的方法示例如何衡量电影、用户的相似性?问题简化,假设每部电影只有两个特征(评分、时长)分别作为横、纵坐标,那每一部电影都可以对应到二维直角坐标系上的一个点。
1.1理解机器学习——One-hot编码示意电影名是否国产是否欧美是否动画是否喜剧大闹天宫1010阿甘正传0101我不是药神1001数机器学习算法能够处理的特征都是数值型的,这就需要将非数值型特征转换为数值型特征,这种信息形式的转换过程又叫编码(encoding)。较常用的编码方式是One-hot编码(独热编码),One-hot编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,One-Hot编码是使用二进制来表示非数值特征的取值。
1.1理解机器学习——机器学习解决问题的流程
目录/Contents1.11.2理解机器学习一些相关概念1.3机器学习的发展1.4开发环境准备
1.2相关概念——基础术语模型:它是机器学习中的核心概念。你可以把它看做一种映射关系(和函数类似),我们给模型一些输入(特征)模型会将这些特征映射成结果。比如一个图像分类模型,我们给它一张图片,它能够将图片分类。拟合:假设平面坐标系中有一系列散落的点,拟合就是指用一条光滑的曲线来表征这些点的规律曲线拟合示意
1.2相关概念——基础术语特征(属性)反映事件或对象在某方面的表现或性质的事项,数据所有能输入到计算机并被计算机程序处理的符号介质的总称。数据集机器学习流程中所需要的所有数据的集合。训练集用于生成预测模型。模型生成之后,再用测试集评估模型的预测准确度。测试集用于对训练集中的最终模型拟合进行无偏评估。样本是观测或调查的一部分个体,总体是研究对象的全部。总体中抽取的所要考查的元素总称,样本中个体的多少叫样本容量。预测是基于以前收集的数据来预测未来的结果。整个预测流程可分为训练和预测两个阶段,训练阶段从训练数据中学习一个模型,预测阶段使用模型预测未知或未来的结果。分类一个有监督的学习过程,即训练数据库中数据的类别是已知的,由此得到一个分类器。聚类按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。聚类是一种无监督学习算法。分类器实现分类的算法。回归指的是从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计未知参数。回归和分类都可以看成一种预测手段,如果预测离散的值可以使用分类、如果预测连续的值可以使用回归。
1.2相关概念——一些常用算法
1.2相关概念——一些常用算法传统机器学习算法中,最基础、最具代表性的就是回归算法(详见第3章)。决策树(详见第5章)作为一种简单、易理解的算法常被用于分类问题中。KNN(K近邻,KNearestNeighbors)是一种基于距离度量的算法(详见第4章)。SVM(支持向量机,SupportVectorMachines)是一种分类器,它使用升维的方法将低维度上非线性可分的问题变得线性可分,同时又巧妙地利用核技巧使得维度增加也不需要太大的运算量(详见第7章)。还可以将多种弱学习器集成使用,通过一定的规则揉和多个弱学习器结果得到一个结果,从而达到媲美强学习器的算法效果(祥见第6章)。
1.2相关概念——一些常用算法强化学习示意伴随着数据大爆炸,以深度学习(详见第9章)、迁移学习、强化学习为代表的机器学习算法大放异彩。深度学习基于深度神经网络,以卷积网络、循环网络、残差网络结合自注意力机制等,在海量训练集加持下在语音、图像等任务领域甚至可以超过人类的水平。迁移学习利用数据、任务或模型之间的相似性,将在旧领域学习过的模型和知识应用与新的领域,这样可以提升模型的训练效率,并且还可以在小样本场景下取得较好的效果。强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action
您可能关注的文档
- 《学前儿童卫生保健》 试卷及答案 共3套 .docx
- 机器学习简明教程---基于Python语言实现 课件 第2章基础知识.pptx
- 机器学习简明教程---基于Python语言实现 课件 第3章回归分析.pptx
- 机器学习简明教程---基于Python语言实现 课件 第4章基于距离的算法.pptx
- 机器学习简明教程---基于Python语言实现 课件 第5章决策树.pptx
- 机器学习简明教程---基于Python语言实现 课件 第6章弱学习器集成算法.pptx
- 机器学习简明教程---基于Python语言实现 课件 第7章支持向量机.pptx
- 机器学习简明教程---基于Python语言实现 课件 第8章人工神经网络.pptx
- 机器学习简明教程---基于Python语言实现 课件 第9章卷积神经网络.pptx
- 机器学习简明教程---基于Python语言实现 课件 第10章用于处理时间序列的网络.pptx
文档评论(0)