支持向量机在数据挖掘中研究.docVIP

下载本文档

1
0
约1.88千字
约 6页
2016-03-01 发布于安徽
举报
版权申诉

支持向量机在数据挖掘中研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

--(完美WORD文档DOC格式,可在线免费浏览全文和下载)值得下载！

支持向量机在数据挖掘中的应用研究摘要：支持向量机(Support Vector Machine, SVM)是数据挖掘和机器学习中的一个很有效的工具。结合支持向量机在数据挖掘和机器学习中的应用 , 介绍了支持向量机的基本原理, 发展方向及其研究热点。关键词：支持向量机; 数据挖掘; 机器学习 1 SVM的提出和基本思想支持向量机是Vapnik等人提出的，在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,已应用于手写体识别、三维目标识别、人脸识别、文本图像分类等实际问题中，性能优于已有的学习方法，表现出良好的学习能力。它是从线性可分情况下的线性分类面发展而来的，接着利用核函数很好的解决了非线性可分情况。 2 支持向量机的几个发展（1）模糊支持向量机，引入样本对类别的隶属度函数，这样每个样本对于类别的影响是不同的，这种理论的应用提高了SVM的抗噪声的能力，尤其适合在未能完全揭示输入样本特性的情况下。（2）最小二乘支持向量机。这种方法是在1999年提出，经过这几年的发展，已经应用要很多相关的领域。研究的问题已经推广到：对于大规模数据集的处理；处理数据的鲁棒性；参数调节和选择问题；训练和仿真。（3）加权支持向量机（有偏样本的加权，有偏风险加权）。（4）主动学习的支持向量机。主动学习在学习过程中可以根据学习进程，选择最有利于分类器性能的样本来进一步训练分类器，特能有效地减少评价样本的数量。（5）粗糙集与支持向量机的结合。首先利用粗糙集理论对数据的属性进行约简，能在某种程度上减少支持向量机求解计算量。（6）基于决策树的支持向量机。对于多类问题，采用二岔树将药分类的样本集构造出一系列的两类问题，每个两类构造一个SVM。（7）分级聚类的支持向量机。基于分级聚类和决策树思想构建多类svm，使用分级聚类的方法，可以先把n-1个距离较近的类别结合起来，暂时看作一类，把剩下的一类作为单独的一类，用svm分类，分类后的下一步不再考虑这单独的一类，而只研究所合并的n-1类，再依次下去。（8）算法上的提高。Vapnik在1995年提出了一种称为“chunking”的块算法，即如果删除矩阵中对应Lagrange乘数为0的行和列，将不会影响最终结果。Osuna提出了一种分解算法，应用于人脸识别领域。Joachims在1998年将Osuna提出的分解策略推广到解决大型SVM学习的算法。Platt于1998年提出了序贯最小优化每次的工作集中只有2个样本。（9）核函数的构造和参数的选择理论研究。基于各个不同的应用领域，可以构造不同的核函数，能够或多或少的引入领域知识。现在核函数广泛应用的类型有：多项式逼近、贝叶斯分类器、径向机函数、多层感知器。参数的选择现在利用交叉验证的方法来确认。（10）支持向量机从两类问题向多类问题的推广。Weston在1998年提出的多类算法为代表。在经典svm理论的基础上，直接在目标函数上进行改进，重新构造多值分类模型，建立k分类支持向量机。通过sv方法对新模型的目标函数进行优化，实现多值分类。一对多（one-against-rest）——Vapnik提出的,k类——k个分类器，第m个分类器将第m类与其余的类分开，也就是说将第m类重新标号为1，其他类标号为-1。完成这个过程需要计算k个二次规划，根据标号将每个样本分开，最后输出的是两类分类器输出为最大的那一类。不足：容易产生属于多类别的点（多个1）和没有被分类的点（标号均为-1）——不对，训练样本数据大，训练困难，推广误差无界。层（数分类方法），是对一对一方法的改进，将k个分类合并为两个大类，每个大类里面再分成两个子类，如此下去，直到最基本的k个分类，这样形成不同的层次，每个层次都用svm来进行分类——1对r-1法，构建k-1个分类器，不存在拒绝分类区。 3 主要研究热点从上面的发展中，我们可以总结出，目前支持向量机有着几方面的研究热点：核函数的构造和参数的选择；支持向量机从两类问题向多类问题的推广；更多的应用领域的推广；与目前其它机器学习方法的融合；与数据预处理（样本的重要度、属性的重要度、特征选择等）方法的结合。参考文献［1］张学工.统计学习理论的本质［M］.北京：清华大学出版社，2000. ［2］NelloCristianini,JohnShawe-Taylor.支持向量机导论［M］.北京：电子工业出版社，2004. .页脚.