机器学习导学.pptxVIP

  • 4
  • 0
  • 约6千字
  • 约 39页
  • 2016-12-30 发布于湖北
  • 举报
机器学习的导学汇报人:顾松敏导 师:王 琢2016.10.12目录1 引言2 基本概念与学习系统机器学习(ML)3 机器学习主要策略及R演示4 发展与展望1 引言 随着信息技术的发展, 互联网数据及资源呈现海量特征。为了有效地管理和利用这些分布的海量信息, 如何使机器具有认识问题和解决问题的能力,就是让机器如何更聪明、更具有人的智能, 这就是机器学习。2 基本概念与学习系统 机器学习的核心是学习。学习是一种多方面、综合性的心理活动,它与记忆、思维、知觉、感觉等多种心理行为都有着密切的联系 目前在机器学习研究领域影响较大的是H.Simon的观点:学习是系统中的任何改进,这种改进使得系统在重复同样的工作或进行类似的工作时,能完成得更好。机器学习研究的就是如何使机器通过识别和利用现有知识来获取新知识和新技能。ML基本概念机器学习是一门多领域交叉学科基本概念机器学习的一个形象描述研究一种算法:1)提高它的性能(P)2)在某项任务中(T)3)利用一些经验(E)well-defined learning task: P,T,E机器学习应用 目前在众多涉及计算机处理的技术应用中, 机器学习在许多领域都取得了很大的进步, 如用于人工智能、数据挖掘、自然语言处理、汉字识别、机器翻译、专家系统以及商业领域等。环境学习知识库执行与评价学习系统 为了使计算机系统具有某种程度的学习能力, 使它能通过学习增长知识,改善性能, 提高智能水平,需要为它建立相应的学习系统。 一个学习系统一般应该由环境、学习、知识库、执行与评价四个基本部分组成。学习系统学习、学习、再学习!3 机器学习主要策略及R演示 机器学习的发展极为迅速,应用也亦日益广泛, 其中有很多优秀的机器学习算法。算法基本上可以分为基于有监督、无监督、半监督和强化学习这四大类。? 有监督学习有监督学习分为学习和预测两个过程,对具有标记的训练样本进行学习,学习到一种模型后以尽可能对训练样本集外的数据进行标记预测。这里,所有的标记是已知的。因此,训练样本的岐义性低。 有监督学习X1X2X3X4Y0.100.010.930.2500.740.870.910.2710.130.210.870.250...............0.120.210.880.1500.840.12...0.210.12...0.430.12...0.340.12...10...0.700.050.930.281训练集 原始数据集测试集0.110.070.920.15 ?0.850.450.560.01? .....预测集 无监督学习对没有概念标记的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记是未知的。因此,训练样本的岐义性高。关联规则和聚类就是典型的无监督学习。无监督学习 主要学习策略决策树朴素贝叶斯回归树模型树k均值聚类神经网络最近邻支持向量机分类器ML主要策略线性回归关联规则按学习任务分类——有监督线性回归最近邻神经网络数值预测模型树回归树双重用处朴素贝叶斯支持向量机决策树分类分类器按学习任务分类——无监督模式识别聚类K均值聚类关联规则R语言简介R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言的优缺最近邻算法最近邻算法 最近邻算法(KNN)就是将待分类样本点决策为距离它最近的已知类别样本点所属的类别。K近邻算法步奏如下描述:(1) 计算已知类别数据集中的点与当前点的距离(2) 按距离递增次序排序(3) 选取与当前点距离最小的k个点(4) 确定前K个点所在类别出现的频率(5) 返回频率最高的类别作为当前类别的预测 最近邻算法K近邻算法步奏如下描述:(1) 计算已知类别数据集中的点与当前点的距离(2) 按距离递增次序排序(3) 选取与当前点距离最小的k个点(4) 确定前K个点所在类别出现的频率(5) 返回频率最高的类别作为当前类别的预测 蛋白质蔬菜西红柿水果最近邻算法如何选择一个合适的K?种类甜度脆度食物类型苹果109水果培根14蛋白质芹菜310蔬菜香蕉101水果奶酪11蛋白质............梨橙子香蕉胡萝卜奶酪黄瓜培根生菜豌豆葡萄虾芹菜鱼苹果脆度甜度最近邻算法最近邻算法 距离的度量: 特征空间中两个例点的距离是它们相似程度的反映。K近邻模型的特征空间一般是n维实数向量空间,可以使用欧氏距离,但也可以使用更一般的LP距离。最近邻算法最近邻算法 最近邻算法是一种基于实例的算法,也是一种懒惰学习算法。在训练阶段比渴望学习算法(如决策树,神经网络等)有更少的计算时间,简单有效,对数据的分布没有要求,训练阶段很快。但在分类过程中需要更多的计算时间,需要大量的内存,不产生模型并且在发现特

文档评论(0)

1亿VIP精品文档

相关文档