机器学习算法.doc

下载文档 降价啦

20
0
约3.49千字
约 174页
2020-05-06 发布于江苏
举报
版权申诉
保障服务

机器学习算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Numpy：科学计算库 Pandas：数据分析处理库 Matplotlib：数据可视化库 Scikit-learn：机器学习库工资年龄额度 4000 25 20000 8000 30 70000 5000 28 35000 7500 33 50000 12000 40 85000 误差?(?)是独立并且具有相同的分布通常认为服从均值为0方差为??的高斯分布 Sigmoid函数对于未知类别属性数据集中的点： 1.计算已知类别数据集中的点与当前点的距离 2.按照距离依次排序 3.选取与当前点距离最小的K个点 4.确定前K个点所在类别的出现概率 5.返回前K个点出现频率最高的类别作为当前点预测分类。概述： KNN 算法本身简单有效，它是一种 lazy-learning 算法。分类器不需要使用训练集进行训练，训练时间复杂度为0。 KNN 分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为 n，那么 KNN 的分类时间复杂度为O(n)。 P(X,Y) = P(X)*P(Y) X和Y两个事件相互独立 Log(XY) = Log(X)+Log(Y) H(X),H(Y) 当成它们发生的不确定性 P(几率越大)-H(X)值越小如：今天正常上课 P(几率越小)-H(X)值越大如：今天没翻车熵 = - ? ??ln(??) ?=1 Gini系数= 谁当根节点呢？ (14行数据，每个数据4个特征 outlook，temperature，humidity，windy) ID3：信息增益 C4.5：信息增益率 CART：Gini系数评价函数： (希望它越小越好,类似损失函数了) 预剪枝：在构建决策树的过程时，提前停止。后剪枝：决策树构建好后，然后才开始裁剪。叶子节点个数越多，损失越大 dot -Tpdf iris.dot -o iris.pdf Bootstraping:有放回采样 Bagging: 有放回采样n个样本一共建立分类器数据集(X1,Y1)(X2,Y2)到(Xn,Yn) Y为样本的类别：当X为正例时候 Y = +1 当X为负例时候 Y = -1 可推出找到一个条线（w和b），使得离该线最近的点能够最远 argmax(w,b)使得min(最近的点到该线的距离) 对于线（w,b）可以通过放缩使得其结果值|Y|= 1 (搞定目标函数) 目标函数：????,? 1 且 ||?|| 转换成求最小值????,? 1 2 ?2且拉格朗日乘子法标准格式：拉格朗日乘子法对偶问题： - 分别对w和b求偏导,分别得到两个条件继续对求极大值条件：极大值转换成求极小值样本：X1(3,3,1) X2(4,3,1) X3(1,1-1) 求解：分别对参数进行求导得： =1.5 =-1 不满足条件最终的解应该为边界上的点 =0 =-2/13 带入原式=-0.153 最小值在(0.25,0,0.25)处取得 =0.25 =0 带入原式=-0.25 对于值(0.25,0,0.25) 0.5X1+0.5X2-2 = 0 为了解决该问题，引入松弛因子当C趋近于无穷大时：意味着分类严格不能有错误当C趋近于很小的时：意味着可以有更大的错误容忍目标函数：带入原式：仍然求对偶问题高斯核函数：为什么围棋选手不信阿法狗呢？结果呢？ 4:1 李世石惨败人工智能的时代已经来临为什么人工智能技术这么厉害？无人驾驶汽车： 4.速度识别。。。黑科技：Image Transfer Content + Style = Interesting thing （假设我们有一系列的标签：狗，猫，汽车，飞机。。。）猫一张图片被表示成三维数组的形式，每个像素的值从0到255 例如：300*100*3 1.收集数据并给定标签 2.训练一个分类器 3.测试，评估对于未知类别属性数据集中的点： 1.计算已知类别数据集中的点与当前点的距离 2.按照距离依次排序 3.选取与当前点距离最小的K个点 4.确定前K个点所在类别的出现概率 5.返回前K个点出现频率最高的类别作为当前点预测分类。概述： KNN 算法本身简单有效，它是一种 lazy-learning 算法。分类器不需要使用训练集进行训练，训练时间复杂度为0。 KNN 分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为 n，那么 KNN 的分类时间复杂度为O(n)。 K 值的选择，距离度量和分类决策规则是该算法的三个基本要素问题：该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的 K 个邻居中大容量类的样本占多数解决：不同的样本给予不同权