数据挖掘中的SVM.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Platt - Fast Training 数据挖掘中的SVM oneroad@smth 2003.12 什么是数据挖掘 数据挖掘(Data Mining)就是从观测到的数据集(经常是很庞大的),抽取出潜在的、有价值的信息1 数据集:传统的数据库,数据仓库,Web 三大学科的交叉: 机器学习 统计学 数据库技术 数据挖掘的图示 数据挖掘的主要任务 分类 Classification 银行客户关系分类 预测 Prediction 股票趋势预测,GDP预测 关联规则 Association Rules 购物篮分析(60%买面包的人会买黄油) 聚类 Clustering 金融欺诈行为检测 数据挖掘中的ML方法 人工神经网络 Neural Networks 决策树 Decision Trees 规则归纳 Rule Induction 最近邻方法 Nearest Neighbor Method 遗传算法 Genetic Algorithms 支持向量机 Support Vector Machines 粗糙集 Rough Set 贝叶斯信念网 Bayesian Belief Networks 模糊逻辑 Fuzzy Logic SVM在DM中的使用情况 DM的门户网站KDnuggets在2003年的一项名为 “What data mining techniques you use regularly? ” 的调查结果中,把SVM称为 “the biggest gainer” 它占到了11%的使用率 SVM在DM中的应用 Drug Design R.Burbidge,M.Trotter,B.Buxton and S.Holden(2001)Drug Design by Machine Learning:Support Vector Machines for Pharmaceutical Data Analysis Bioinformatics Paul Bertone(2001) Integrative Data Mining:The New Direction in Bioinformatics Travel Time Prediction Chun-Hsin Wu,Chia-Chen,Da-Chun,and Ming-Hua Chang (2003)Travel Time Prediction with Support Vector Regression. Intrusion Detection Srinivas Mukkamala, Guadalupe Janoski, Andrew H. Sung. (2002) Intrusion Detection Using Support Vector Machines. 数据挖掘的特点 最大的特点:海量数据集 美国零售商沃尔玛每天大约2千万笔的交易,一年的客户交易数据库容量超过11TB ATT公司,1亿电话用户,每天3亿次的呼叫特征数据 美国宇航局NASA的地球观测系统每小时生成几个GB的原始数据 人类基因工程中超过3.3×109个核苷酸的数据库 其它特点:较高维度,有噪声,属性值缺失 带来的问题 传统的统计方法没法应用 经典的ML方法的使用会受制于计算机硬件 过度拟合(Overfitting)的频现 维度灾难(Curse of Dimensionality) 分布式存储带来的数据访问困难 分析时间太长,影响后期的实时决策效果 SVM在DM中的优势和不足 优势: 最大间隔的思想-更好的泛化能力,有助于解决过度拟合 核函数-解决非线性问题的同时避免维度灾难 二次优化-存在唯一解,并且可以找到全局最优 稀疏性-支持向量个数相对数据集小得多,易于存储 不足: 运算效率低 计算时占用资源过大 大规模数据下的SVM SVM的核心在于求解一个QP问题 原始问题: 等价问题形式: 庞大的核函数矩阵Q Q是一个L×L的矩阵,且不稀疏 Q在寻优计算中要经常调用 带来的问题 Q无法在内存中存储 实时计算Q,带来效率低下 Q太大,使得矩阵运算很耗时 分解算法( Decomposition) 思想: 将大型的二次规划问题(QP问题)分成若干个小的QP问题,也就是每次抽取一个小的工作集(Working Set)来做QP,从而解决内存不够的问题 Chunking Boser,Vapnik 1992 思想: 去掉非SV的(αi=0)样本,不影响解 缺陷: 当模型不稀疏的时候(SVs很多)的时候,Data Set会越来越大,以至于无法计算 Chunking with Fixed-size Work Set

文档评论(0)

yuxiufeng + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档