- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、K近邻算法
1.算法思想
取未知样本的x的k个近邻,看这k个近邻中多数属于哪一类,就把x归于哪一类。具体说就是在N个已知的样本中,找出x的k个近邻。设这N个样本中,来自类的样本有个,来自的样本有个,...,来自类的样本有个,若分别是k个近邻中属于类的样本数,则我们可以定义判别函数为:
决策规则为:
若,则决策
2.程序代码
%KNN算法程序
function error=knn(X,Y,K)
%error为分类错误率
data=X;
[M,N]=size(X);
Y0=Y;
[m0,n0]=size(Y);
t=[1 2 3];%3类向量
ch=randperm(M);%随机排列1—M
error=0;
for i=1:10
Y1=Y0;
b=ch(1+(i-1)*M/10:i*M/10);
X1=X(b,:);
X(b,:)=[];
Y1(b,:)=[];
c=X;
[m,n]=size(X1); %m=15,n=4
[m1,n]=size(c); %m1=135,n=4
for ii=1:m
for j=1:m1
ss(j,:)=sum((X1(ii,:)-c(j,:)).^2);
end
[z1,z2]=sort(ss); %由小到大排序
hh=hist(Y1(z2(1:K)),t);
[w,best]=max(hh);
yy(i,ii)=t(best); %保存修改的分类结果
end
error=error+sum(Y0(b,:)~=yy(i,:));
X=data;
end
error=error/M;
%算法主程序:
clc
clear all
load iris.mat
%iris.mat中存放X为150*4的iris数据,Y为150*1的分类结果,以下均使用该数据
n=0;
for i=1:10
error=knn(X,Y,1);
n=n+error;
end
correct=1-n/10
3.程序运行结果
做十折交叉验证得到:
当K=1时,正确分类概率为:0.9587
当K=3时,正确分类概率为:0.9613
当K=5时,正确分类概率为:0.9640
当K=7时,正确分类概率为:0.9653
当K=10时,正确分类概率为:0.9667
当K=30时,正确分类概率为:0.9480
当K=60时,正确分类概率为:0.9027
4.结果分析
从以上的结果我们可以看出当k较小时,随着k的增加,其正确分类的概率也逐渐增加;然而当k增加到一定的值时,即k取较大的值时,随着k的增加,其正确率并没有随之增加,反而大大降低了。因此在实际中选择K的值时应慎重考虑,结合实际结果,选取合适的K值。
二、K均值算法
1.算法思想
K-means算法是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。在下面的算法中,在计算数据样本之间的距离时,采用的欧式距离。
其步骤如下:
为每一个聚类确定一个初始的聚类中心,这样就有K个聚类中心。
将样本集中的样本按照最小距离准则分配到最临近聚类
使用每个聚类中的样本均值作为新的聚类中心
重复步骤2,3直到聚类中心不再变化。
结束,得到K个聚类
2.程序代码
%K均值算法程序
function [class,num,center] = kmeans(x,k,start)
[n,d] = size(x);
class = zeros(1,n);% 设置class 为分类结果显示矩阵
num = zeros(1,k); %num保存每一类的个数
maxgn= 10000;
iter = 1;
while iter maxgn
%计算每个数据到聚类中心的距离
for i = 1:n
dist = sum((repmat(x(i,:),k,1)-start).^2,2);
[m,ind] = min(dist);
class(i) = ind; % 将当前聚类结果存入class 中
end
for i = 1:k
%找到每一类的所有数据,计算他们的平均值,作为下次计算的聚类中心
ind = find(class==i);
start(i,:) = mean(x(i
文档评论(0)