人工智能-kNN及Kmeans.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
THANK YOU * 还有一个定义是美国电器工程师和计算机科学家阿瑟-塞缪尔提出的,他认为机器学习是研究“如何让计算机通过编程以外的方式进行学习”。 * 这些不完整的信息通常称为特征向量。向量的每一个元素描述了实例的一个方面(也就是特征) * 如果一个 * 一个实例时,记住信息。加入响尾蛇的信息,这也就可以归纳并试着通过是否产卵、有无鳞片、有无毒性、是否冷血以及是否右腿,来判断一个动物是否是爬行动物。 * 如果想要判断巨蚺是否为爬行动物,答案可能是“否”,巨蚺没有毒性,也不产卵,这个答案是错误的,显然,只归纳两个实例远远不够的。 2 加入巨蟒后有鳞片、冷血且无腿的动物是爬行动物,测试,产卵和毒性是和分类无关的特征。 * 如果使用新规则对短吻鳄分类,由于他有腿,答案可能是否,这仍然是错误的。分类箭毒蛙,正确的结果。分类成是(错误)。 * 参数P定义向量到原点之间的路径的类型。P=2(欧式距离);p=1(曼哈顿距离) * * 这跟你想的可能一样,响尾蛇和巨蚺的距离可能比它和箭毒蛙的距离更短 * 短吻鳄更接近箭毒蛙,而不是响尾蛇和巨蚺,请思考一下为什么? 短吻鳄和响尾蛇的特征向量有两处不同:是否有毒以及腿的数量。 短吻鳄和箭毒蛙的特征向量有三处不同:是否有毒、是否有鳞片,以及是否冷血。 但是,在我们的距离东度量中短吻鳄更接近箭毒蛙而不是响尾蛇,到底是为什么? * 有些情况只使用二元特征是远远不够的。 * ?最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN * (a)绿色的点表示原始的数据集 (b)在原始数据集边界范围内随机生成两个质心(K=2) (c)比较整个数据集中每个数据点与两个质心的距离,将其划分到距离较近的簇中(如图中将每个点修改为红色或蓝色) (d)计算每个簇的均值,找到新的质心(新的红色和蓝色的X,注意这里寻找质心的计算过程尽在上次分好的每个簇内进行) (e)重新比较整个数据集中每个数据点与新的质心的距离,并重新划分 (f)计算新生成的每个簇的均值,作为质心。 重新计算整个数据集中每个数据点与新的质心的距离,当所有数据点的分类结果都不再变化时,停止迭代 * * 机器学习简介 (A QUICK LOOK AT MACHINE LEARNING) fuzhan713@ 1 2 3 4 PART ONE PART TWO PART THREE PART FOUR 机器学习及其重要性 特征向量 监督学习 非监督学习 目录 机器学习是人工智能的核心研究领域之一 任何一个没有学习能力的系统都很难被认为是一个真正的智能系统 经典定义:利用经验改善系统自身的性能 随着该领域的发展,主要做智能数据分析 并已成为智能数据分析技术的源泉之一 典型任务:预测(例如:天气预报) 机器学习 生物 信息学 计算 金融学 分子 生物学 行星 地质学 …… 工业过程控制 机器人 …… 遥感信 息处理 信息安全 机 器 学 习 机器学习的重要性 生物 信息学 计算 金融学 分子 生物学 行星 地质学 …… 工业过程控制 机器人 …… 遥感信 息处理 信息安全 机 器 学 习 通常来说,机器学习会观察一组实例,它们会包含某些统计信息的不完整信息,然后试着推测生成这些实例的过程,这组实例通常被称为训练数据。 举例来说,假设下面有两组人: 举例来说,假设下面有两组人 训练数据 特征向量 信噪比(signal-to-noise ratio,SNR)这个概念经常出现在工程学和科学中。准确的定义根据应用场景不同而不同,但是核心思想非常简单,可以把它看成有用输入和无用输入的比例。 如果我想要预测哪些学生会在编程中表现突出,那之前的编程经验和数学天分就是信号的一部分,但是性别是噪声。想要从噪声中分离信号并不是一件简单的事情,如果做不好的话,噪声就会掩盖住信号的内容。 特征提取 特征提取的目的是从现有数据的噪声中提取出和信号有关的特征。如果做不好的话会出现两类问题: 无关特征会影响模型质量,当数据维度(不同特征的数量)和实例数量高度相关时,影响尤其严重。 无关特征会影响学习速度。机器学习算法通常时学习密集型的,复杂度会随着实例数量和特征数量的增加而增加。 特征提取的就是要减少实例中需要归纳的信息量,找出有用的特征,进而提高算法模型的准确性。 思考:特征向量和标签(是否是爬行动物) 巨蚺是否是爬行动物? 新规则:短吻鳄 在上表中,使用4个二元特征和1个整数特征来描述动物。假如说用这些特征评估两个动物的相似度,比如说判

文档评论(0)

js1180 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档