- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八讲 Matlab数据挖掘;Matlab数据挖掘;一、聚类分析;二、数据类型及转换;3、区间标度度量
一个粗略线性标度的连续度量。(如重量,温度等)
为什么这么做?
选用的度量单位会直接影响聚类结果。例如千克改位克。一般,所用的单位越小,变量的值域就越大,对聚类的影响也越大。为了避免数据对度量单位的依赖,数据应当标准化。
实现度量值的标准化:将原来的度量值转换为无单位的值。;变换方法;对象的相似度计算方法;(1)二元变量
变量的取值只有两个状态,如性别,表示是否吸烟,医疗检查正常还是不正常等。
i和j是两个变量: q是两个变量中都为1的个数
t是两个变量中都为0的个数
s是i变量中为0,j中为1的个数
r是i变量中为1,j中为0的个数
p=q+r+s+t
二元变量权重相同(对称的,如性别);二元变量权重不同(非对称的)
例如,一个疾病化验???果正常和不正常,对一个群体,正常者总是大多数,我们用1表现几率小的情况,0表示另一种情况。
评价系数,Jaccard系数;(2)枚举变量
可以有若干个不同取值,比如反映产品颜色的color可以 是{红、黄、绿、兰、粉红}
假设一个枚举变量的状态数目是M。这些状态可以映射到字母、符号或一组整数(1,2,…,M)。;(3)序数型变量
是枚举但有序,比如{金牌、银牌、铜牌}
区间标度度量值划成了区间,比如年龄分成了年龄段{10
岁以下,11..20,21..30,..}等。;如何处理序数型变量?;(4)比例标度型
非线性的取正的数据,如指数型数据。;三、划分方法;K-平均算法;例子;K-中心点;; 判定一个非代表对象Orandom是否是一个代表对象Oj的更好替代,对每个非中心点对象p,考虑下面四种情况:;判定一个非代表对象Orandom是否是一个代表对象Oj的更好替代,对每个非中心点对象p,考虑下面四种情况:;判定一个非代表对象Orandom是否是一个代表对象Oj的更好替代,对每个非中心点对象p,考虑下面四种情况:;判定一个非代表对象Orandom是否是一个代表对象Oj的更好替代,对每个非中心点对象p,考虑下面四种情况:;举例;Matlab数据挖掘;概述;概述;概述;根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值。
Vapnik’s inequality:
h比较小时,实际风险与经验
风险差别不大;随着h增大,
置信范围变大,使得用经验
风险值代替实际风险值误差
很大。
;训练点:
最优分类线: w为最优分类线的法向量,b为偏移量。
训练点如图所示:可得到
两个边界分类线和一个最
优分类线。;最优化问题和判别面;近似线性可分(广义最优分类面);
优化问题:
Lagrange方程:
;修正目标为对偶函数为:
确定最优解:
代入求解,得:
决策函数:
;核函数; 非线性映射为 ,只要阶数趋于无穷大,则任何多项式曲线边界的两类问题都可以被映射为线性可分的问题。这和曲线拟合问题是一样的,只要所采用的模型有足够高的阶数,给定的样本总可以被拟合出来。
非线性可分问题对偶为:; 因此我们只需找到一个函数
使 满足上面要求。而 就是核函数,这样两类非线性可分问题就转化成为了线性问题。
正是因为在支持向量机的对偶表达形式中,只出现了学习样本的点积运算,才使得我们有可能运用核函数的方法解决非线性分类问题。这正是支持向量机引起人们广泛关注的意义所在。; 非线性可分问题的对偶问题:;;核函数的选择;SVM方法特点;SVM方法特点;模型选择;SVM分类的例子;利用数据文件examp08_02数据文件,对鸢尾花进行分类。;%% 数据归一化
[Train_matrix,PS] = mapminmax(train_matrix);
Train_matrix = Train_matrix;
Test_matrix = mapminmax(apply,test_matrix,PS);
Test_matrix = Test_matrix;
%% SVM创建/训练(RBF核函数)
% 寻找最佳c/g参数——交叉验证方法
[c,g] = meshgrid(-10:0.2:10,-10:0.2:10);
[m,n] = size(c);
cg = zeros(m,n);
eps =
文档评论(0)