- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第03讲 k-近邻
北京理工大学珠海学院
数理学院统计系:陈 灵
第3讲
k-近邻
k-近邻分类 (懒惰学习)
k-近邻
k-近邻法最令人感兴趣的问题是k如何选取
K-近邻分类 (懒惰学习)
k-近邻的R语言实现:kNN算法
class包里的函数knn ()
K-近邻分类 (懒惰学习)
先看一个具体的案例:西红柿是水果还是蔬菜!
K-近邻分类 (懒惰学习)
画出散点图:
x表示甜度(sweetness),y表示脆度(crunchiness)
K-近邻分类 (懒惰学习)
归类
K-近邻分类 (懒惰学习)
西红柿是水果还是蔬菜!
K-近邻分类 (懒惰学习)
需要计算距离
k-近邻法最令人感兴趣的问题是k如何选取
1nn-近邻:橙子是西红柿的近邻,
所以西红柿是水果!
3nn-近邻:橙子、葡萄和坚果都是西红柿的近邻,
但水果占2/3票数,所以西红柿是水果!
西红柿是水果!
K-近邻分类 (懒惰学习)
西红柿奇案
K-近邻分类 (懒惰学习)
例3.1对鸢尾花数据(见数据光盘中的iris.txt)
应用Sepal.Length, Sepal.Width两个输入变量,
用R中的knn函数构造分类模型,并计算训练分类
错误率,R程序如下:
library(class)
attach(iris)
train- iris[, 1:2]
y- as.numeric(Species)
x- train
fit-knn(x,x,y)
1-sum(y==fit)/length(y)
JMP插件
书P50
JMP插件Nearest Neighbor Classification
这个插件,在光盘中没找到!
K-近邻分类 (懒惰学习)
JMP插件Nearest Neighbor Classification
K-近邻分类 (懒惰学习)
第3讲
k-近邻(k-means)
R实战
K-近邻分类 (懒惰学习) 实际案例
用kNN算法诊断乳腺癌案例
第1步:收集数据
第2步:探索和准备数据
第3步:基于数据训练模型
第4步:评估模型的性能
第5步:提高模型的性能
第6步:结论
kNN近邻分类 威斯康星乳腺癌诊断.txt
K-近邻分类 (懒惰学习) 实际案例
第1步:收集数据
打开网址:/ml/
K-近邻分类 (懒惰学习) 实际案例
威斯康星乳腺癌诊断数据集
K-近邻分类 (懒惰学习) 实际案例
这个数据集包含:
1. 569例细胞活检案例
2. 每个案例有32个特征,其中一个是识别码,一个
是癌症诊断结果,其他30个特征是数值型的实验
室测量结果。
3. 癌症诊断结果用编号“M”表示恶性,编号“B”表
示良性。
K-近邻分类 (懒惰学习) 实际案例
其他30个特征是数值型的实验室测量结果是由数字化细胞
核的10个不同特征的均值、标准差和最大值构成。(Ten
real-valued features are computed for each cell
nucleus)如下:
a)半径radius (mean of distances from center to points on the perimeter)
b) 质地texture (standard deviation of gray-scale values)
c)周长perimeter
d) 面积area
e) 光滑度smoothness (local variation in radius lengths)
f) 致密性compactness (perimeter^2 / area - 1.0)
g)凹度concavity (severity of concave portions
文档评论(0)