机器学习学习指导书.pptVIP

下载本文档

11
0
约6.89千字
约 38页
2017-02-10 发布于江苏
举报
版权申诉

机器学习学习指导书.ppt

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习学习指导书

覆盖算法的改进基于覆盖的构造性算法可以正确地反映样本集的空间分布，但是其识别率还不够理想，也就是泛化能力不强，为此，利用没有被任何覆盖领域覆盖的样本（即拒识向量），提出了多侧面递进算法MIDA。根据覆盖领域完全真实地反映了样本的分布情况的特性，提出点对的概念。并依据点对，提出了点对主分量分析算法DPCAA。特征选择特征选择的基本任务是如何从许多特征中找出那些最有效的特征，即特征的主分量分析。从泛化能力的分析中，可以看到在样本数不是很多的情况下，用很多特征进行分类器设计，无论从计算的复杂程度还是分类器性能来看都是不适宜的。因此研究如何从高维特征空间选择出最有效的低维特征以便有效地设计分类器就成为一个重要的课题。特征分为三类： ①物理的 ②结构的 ③数学的人们通常利用物理和结构特征来识别对象，因为这样的特征容易被视觉、触觉以及其他感觉器官所发现。特征选择准则特征选择的任务是从一组数量为n特征中选择出数量为n’(nn’)的一组最优特征来。有二个问题要解决，一是选择的标准，即要选出使某一可分性达最大的特征组来。另一问题是要找一个较好的算法，以便在允许的时间内找出最优的那一组特征。如果把n个特征每个单独使用时的可分性判据都算出来，按判据大小排队，例如： J(x1)＞J(x2)＞…＞J(xn’)＞…＞J(xn) 就可以提个问题：单独使用时使J较大的前n’个特征是否就是一个最优的特征组呢?如果回答是肯定的，特征选择也就变得简单了。不幸的是，即使当所有特征都相互独立时，除了一些特殊的情况外，一般来说，前n’个最有效的特征并非最优的(数量为n’的)特征组，甚至有可能是最不好的特征组。用分类器的错误概率作为标准就行了，也就是说，使分类器错误概率最小的那组特征，就应当是一组最好的特征。从理论上说，这是完全正确的，但在实用中却有很大困难。这是因为即使在类条件分布密度已知的情况下错误概率的计算也很复杂，何况实际问题中这一分布常常不知道，这使得直接用错误概率作为标准来分析特征的有效性比较困难。定义：点对是覆盖领域集合中半径小于某个特定的值?（如例中的?=2）的覆盖领域，对这些覆盖领域取覆盖内与覆盖不同类点的最近距离的两点，就构成点对。点对的定义可知，点对是那些类别不同、彼此靠近、互相纠缠的向量，换句话说，就是特征描述不合适，没有将不同类别的特征从数学特征上将差别表现出来。主分量分析算法：步骤1：对给定样本集X用覆盖算法求出所有分类的覆盖领域。步骤2：给定一个?，对每个覆盖半径〈?的覆盖，取一点对（即取覆盖领域的圆点与该覆盖领域外最近距离的异类点，构成点对）。步骤3：统计点对各分量差的绝对值之和，删除s个分量差的绝对值最小的分量，即形成新的X。步骤4：按新选的特征测试识别的错误率，若错误率下降，则返回步骤1，继续特征选择；否则，错误率上升，则恢复步骤3中删除的s个特征，停止。主分量分析算法的分析按SVM最优分类面的观点出发, 求解分类问题,就是求划分的边界线. 若能将在边界线“附近”的点找出来，只要能将这些“附近”的点分开，其他的点就自然而然地被分开。若希望得到泛化能力强的分类器，就是要以最大间隔为宽度，划一条界线。点对主分量分析算法正是基于上述最大分类间隔的思想，希望通过特征的选择，使分类间隔增大，从而得到泛化能力强，分类特性更为明显的特征。其实，本文引入的点对就是分类界限的边界点，也是样本集原空间中的支持向量。多侧面递进的学习算法MIDA 人类在解决复杂问题时，通常不是一次性地考虑问题的全部细节，而是先把问题分解或简化，忽略其中的部分细节，然后从简化的较抽象层次开始，层层分析研究，实现从局部到全体的解决问题的方法。例如，对机器零部件，人们习惯用主视图、俯视图、侧视图来分析，若三视图还不能详细给出部件特征，则可对特殊部分进一步说明。用数学语言描述就是：若元素x的属性函数是多维的，如有n个属性函数分量f1，f2，…，fn ，若暂不考虑其中i个属性f1，f2，…，fi，将fi+1，fi+2，…，fn属性作为分析研究对象。同样地对海量数据，人们首先想到的是：是否可以对数据进行某种划分，分成若干小块（每小块的规模可以处理），然后将其合并起来，得到整个对象的特性。基本思想设样本集K={{1,2,3,4,5,6},{7,8,9,10,11,12,13}}，每个样本xi是一n=4维向量F。 x1=(2,2,1,2), x2=(4,3,2,1), x3=(3,4,4,1), x4=(11,3,2,2), x5=(2,8,2,3), x6=(4,9,2,1), x7=(9,3,2,7), x8=(10,2,2,1), x9=(11,7,2,5), x10=(2,9