机器学习算法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Numpy:科学计算库 Pandas:数据分析处理库 Matplotlib:数据可视化库 Scikit-learn:机器学习库 工资 年龄 额度 4000 25 20000 8000 30 70000 5000 28 35000 7500 33 50000 12000 40 85000 误差?(?)是独立并且具有相同的分布通常认为服从均值为0方差 为??的高斯分布 Sigmoid函数 对于未知类别属性数据集中的点: 1.计算已知类别数据集中的点与当前点的距离 2.按照距离依次排序 3.选取与当前点距离最小的K个点 4.确定前K个点所在类别的出现概率 5.返回前K个点出现频率最高的类别作为当前点预测分类。 概述: KNN 算法本身简单有效,它是一种 lazy-learning 算法。 分类器不需要使用训练集进行训练,训练时间复杂度为0。 KNN 分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中 文档总数为 n,那么 KNN 的分类时间复杂度为O(n)。 P(X,Y) = P(X)*P(Y) X和Y两个事件相互独立 Log(XY) = Log(X)+Log(Y) H(X),H(Y) 当成它们发生的不确定性 P(几率越大)-H(X)值越小 如:今天正常上课 P(几率越小)-H(X)值越大 如:今天没翻车 熵 = - ? ??ln(??) ?=1 Gini系数= 谁当根节点呢? (14行数据,每个数据4个特征 outlook,temperature,humidity,windy) ID3:信息增益 C4.5:信息增益率 CART:Gini系数 评价函数: (希望它越小越好,类似损失函数了) 预剪枝: 在构建决策树的过程时,提前停止。 后剪枝: 决策树构建好后,然后才开始裁剪。 叶子节点个数越多,损失越大 dot -Tpdf iris.dot -o iris.pdf Bootstraping:有放回采样 Bagging: 有放回采样n个样本一共建立分类器 数据集(X1,Y1)(X2,Y2)到(Xn,Yn) Y为样本的类别: 当X为正例时候 Y = +1 当X为负例时候 Y = -1 可推出 找到一个条线(w和b),使得离该线最近的点能够最远 argmax(w,b)使得min(最近的点到该线的距离) 对于线(w,b)可以通过放缩使得其结果值|Y|= 1 (搞定目标函数) 目标函数:????,? 1 且 ||?|| 转换成求最小值????,? 1 2 ?2且 拉格朗日乘子法标准格式: 拉格朗日乘子法 对偶问题: - 分别对w和b求偏导,分别得到两个条件 继续对 求极大值 条件: 极大值转换成求极小值 样本:X1(3,3,1) X2(4,3,1) X3(1,1-1) 求解: 分别对参数进行求导得: =1.5 =-1 不满足条件 最终的解应该为边界上的点 =0 =-2/13 带入原式=-0.153 最小值在(0.25,0,0.25)处取得 =0.25 =0 带入原式=-0.25 对于 值(0.25,0,0.25) 0.5X1+0.5X2-2 = 0 为了解决该问题,引入松弛因子 当C趋近于无穷大时:意味着分类严格不能有错误 当C趋近于很小的时:意味着可以有更大的错误容忍 目标函数: 带入原式: 仍然求对偶问题 高斯核函数: 为什么围棋选手不信阿法狗呢? 结果呢? 4:1 李世石惨败 人工智能的时代已经来临 为什么人工智能技术这么厉害? 无人驾驶汽车: 4.速度识别 。。。 黑科技:Image Transfer Content + Style = Interesting thing (假设我们有一系列的标签:狗,猫,汽车, 飞机。。。) 猫 一张图片被表示成三维数组的形 式,每个像素的值从0到255 例如:300*100*3 1.收集数据并给定标签 2.训练一个分类器 3.测试,评估 对于未知类别属性数据集中的点: 1.计算已知类别数据集中的点与当前点的距离 2.按照距离依次排序 3.选取与当前点距离最小的K个点 4.确定前K个点所在类别的出现概率 5.返回前K个点出现频率最高的类别作为当前点预测分类。 概述: KNN 算法本身简单有效,它是一种 lazy-learning 算法。 分类器不需要使用训练集进行训练,训练时间复杂度为0。 KNN 分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为 n,那么 KNN 的分类时间复杂度为O(n)。 K 值的选择,距离度量和分类决策规则是该算法的三个基本要素 问题:该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很 小时,有可能导致当输入一个新样本时,该样本的 K 个邻居中大容量类的样本占多数 解决:不同的样本给予不同权

文档评论(0)

152****7770 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档