- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Numpy:科学计算库
Pandas:数据分析处理库
Matplotlib:数据可视化库
Scikit-learn:机器学习库
工资 年龄 额度
4000 25 20000
8000 30 70000
5000 28 35000
7500 33 50000
12000 40 85000
误差?(?)是独立并且具有相同的分布通常认为服从均值为0方差
为??的高斯分布
Sigmoid函数
对于未知类别属性数据集中的点:
1.计算已知类别数据集中的点与当前点的距离
2.按照距离依次排序
3.选取与当前点距离最小的K个点
4.确定前K个点所在类别的出现概率
5.返回前K个点出现频率最高的类别作为当前点预测分类。
概述:
KNN 算法本身简单有效,它是一种 lazy-learning 算法。
分类器不需要使用训练集进行训练,训练时间复杂度为0。
KNN 分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中
文档总数为 n,那么 KNN 的分类时间复杂度为O(n)。
P(X,Y) = P(X)*P(Y) X和Y两个事件相互独立 Log(XY) = Log(X)+Log(Y)
H(X),H(Y) 当成它们发生的不确定性
P(几率越大)-H(X)值越小 如:今天正常上课
P(几率越小)-H(X)值越大 如:今天没翻车
熵 = - ? ??ln(??)
?=1
Gini系数=
谁当根节点呢?
(14行数据,每个数据4个特征
outlook,temperature,humidity,windy)
ID3:信息增益
C4.5:信息增益率
CART:Gini系数
评价函数: (希望它越小越好,类似损失函数了)
预剪枝: 在构建决策树的过程时,提前停止。
后剪枝: 决策树构建好后,然后才开始裁剪。
叶子节点个数越多,损失越大
dot -Tpdf iris.dot -o iris.pdf
Bootstraping:有放回采样
Bagging: 有放回采样n个样本一共建立分类器
数据集(X1,Y1)(X2,Y2)到(Xn,Yn)
Y为样本的类别:
当X为正例时候 Y = +1
当X为负例时候 Y = -1
可推出
找到一个条线(w和b),使得离该线最近的点能够最远
argmax(w,b)使得min(最近的点到该线的距离)
对于线(w,b)可以通过放缩使得其结果值|Y|= 1
(搞定目标函数)
目标函数:????,?
1
且
||?||
转换成求最小值????,?
1
2
?2且
拉格朗日乘子法标准格式:
拉格朗日乘子法
对偶问题:
-
分别对w和b求偏导,分别得到两个条件
继续对 求极大值
条件:
极大值转换成求极小值
样本:X1(3,3,1) X2(4,3,1) X3(1,1-1)
求解:
分别对参数进行求导得: =1.5
=-1
不满足条件
最终的解应该为边界上的点 =0
=-2/13
带入原式=-0.153
最小值在(0.25,0,0.25)处取得
=0.25
=0
带入原式=-0.25
对于 值(0.25,0,0.25)
0.5X1+0.5X2-2 = 0
为了解决该问题,引入松弛因子
当C趋近于无穷大时:意味着分类严格不能有错误
当C趋近于很小的时:意味着可以有更大的错误容忍
目标函数:
带入原式:
仍然求对偶问题
高斯核函数:
为什么围棋选手不信阿法狗呢?
结果呢?
4:1 李世石惨败
人工智能的时代已经来临
为什么人工智能技术这么厉害?
无人驾驶汽车:
4.速度识别
。。。
黑科技:Image Transfer
Content + Style = Interesting thing
(假设我们有一系列的标签:狗,猫,汽车,
飞机。。。)
猫
一张图片被表示成三维数组的形
式,每个像素的值从0到255
例如:300*100*3
1.收集数据并给定标签
2.训练一个分类器
3.测试,评估
对于未知类别属性数据集中的点:
1.计算已知类别数据集中的点与当前点的距离
2.按照距离依次排序
3.选取与当前点距离最小的K个点
4.确定前K个点所在类别的出现概率
5.返回前K个点出现频率最高的类别作为当前点预测分类。
概述:
KNN 算法本身简单有效,它是一种 lazy-learning 算法。
分类器不需要使用训练集进行训练,训练时间复杂度为0。
KNN 分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为 n,那么 KNN
的分类时间复杂度为O(n)。
K 值的选择,距离度量和分类决策规则是该算法的三个基本要素
问题:该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很 小时,有可能导致当输入一个新样本时,该样本的 K 个邻居中大容量类的样本占多数
解决:不同的样本给予不同权
原创力文档


文档评论(0)