王秀平-数据挖复习.pptxVIP

下载本文档

0
0
约2.48千字
约 47页
2017-06-29 发布于贵州
举报
版权申诉

王秀平-数据挖复习.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

王秀平-数据挖复习

K-近邻分类算法（K Nearest Neighbors，简称KNN）通过计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。;KNN的直观解释;k近邻算法;k近邻法;遗传算法的生物学基础生物进化理论与遗传学;遗传算法的基本术语;遗传算法的基本思想;遗传算法的流程图;遗传算法基本要素与实现技术;编码与解码;编码与解码;编码与解码;二进制编码染色体的交叉;二进制编码染色体的交叉;二进制编码染色体的交叉;均匀交叉;几个术语 ;单点交叉运算 ;GA的框图 ;;;;;传统的统计模式识别方法只有在样本趋向无穷大时，其性能才有理论的保证。统计学习理论（STL）研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论。传统的统计模式识别方法在进行机器学习时，强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”，其推广能力较差。推广能力是指: 将学习机器(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。 ;“过学习问题”：某些情况下，当训练误差过小反而会导致推广能力的下降。例如：对一组训练样本(x,y),x分布在实数范围内，y取值在[0，1]之间。无论这些样本是由什么模型产生的，我们总可以用y=sin(w*x)去拟合，使得训练误差为0. ;根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差，没有最小化置信范围值，因此其推广能力较差。 Vapnik 提出的支持向量机（Support Vector Machine, SVM）以训练误差作为优化问题的约束条件，以置信范围值最小化作为优化目标，即SVM是一种基于结构风险最小化准则的学习方法，其推广能力明显优于一些传统的学习方法。形成时期在1992—1995年。 ;由于SVM 的求解最后转化成二次规划问题的求解，因此SVM 的解是全局唯一的最优解 SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中 Joachims 最近采用SVM在Reuters-21578来进行文本分类，并声称它比当前发表的其他方法都好 ;SVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用图2的两维情况说明. ;最优分类面;;最优分类面;①?非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; ②?对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; ③?支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 ?SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理 ”(transductive inference) ,大大简化了通常的分类和回归等问题。;SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。 ?少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在: ①增、删非支持向量样本对模型没有影响; ②支持向量样本集具有一定的鲁棒性; ③有些成功的应用中,SVM 方法对核的选取不敏感。 ;例1：如下图所示（简单的一维情况） 1、设全部样本分为6类， 2、计算距离矩阵D(0);;3、求最小元素： 4、把Ω1, Ω3合并Ω7=(1,3) Ω4, Ω6合并Ω8=(4,6) 5、作距离矩阵D(1)，按最小距离准则;6、若合并的类数没有达到要求，转3。否则停止。 3、求最小元素： 4、Ω8, Ω5, Ω2合并, Ω9=（2,5,4,6） ;三、初始分类和调整 ① 选一批代表点后，代表点就是聚类中心，计算其它样本到聚类中心的距离，把所有样本归于最近的聚类中心点，形成初始分类，再重新计算各聚类中心，称为成批处理法。 ② 选一批代表点后,依次计算其它样本的归类，当计算完第一个样本时，把它归于最近的一类，形成新的分类。再计算新的聚类中心，再计算第二个样本到新的聚类中心的距离，对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。 ③ 直接用样本进行初始分类，先规定距离d,把第一个样品作为第一类的聚类中心，考察第二个样本，若第二个样本距第一个聚类中心距离