- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2-数数据据挖挖掘掘的的学学习习路路径径
⼀⼀、、数数据据挖挖掘掘知知识识清清单单
①-数数据据挖挖掘掘的的过过程程可可以以分分成成以以下下6个个步步骤骤。。
1、商业理解:挖掘是⽬的,帮助业务才是⽬的,从商业的⾓度理解项⽬需求,再开始定义挖掘⽬的
2、数据理解:收集、探索数据,包含数据描述、数据质量验证等
3、数据准备:收集数据,并对数据进⾏清洗、数据集成等操作,完成数据挖掘前的准备⼯作。
4、模型建⽴:选择和应⽤各种数据挖掘模型,并进⾏优化,以便得到更好的分类结果。
5、模型评估:对模型进⾏评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业⽬标。
6、上线发布:可⽤是报告、可复⽤的数据挖掘过程等,数据挖掘结果如果是⽇常运营的⼀部分,那么后续监控维护就很重要
②-数数据据挖挖掘掘的的⼗⼗⼤⼤算算法法
为了进⾏数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织ICDM(theIEEEInternational
ConferenceonDataMining)评选出了⼗⼤经典的算法。
1、分类算法:C4.5,朴素贝叶斯(NaiveBayes),SM,KNN,Adaboost,CART
C4.5/决策树算法(⼗⼤算法之⾸,在决策树构造过程中进⾏剪枝,且可以处理连续属性,也能对完整的数据进⾏处理)
朴素贝叶斯/NaiveBayes(基于概率论的原理,主要思想:对于给出未知物体想要进⾏分类,就需要求解在这个未知物体出现的条件
下各个类别出现的概率,哪个最⼤就认为这个未知物体属于哪个分类)
SM/⽀持向量机(SupportectorMachine)(在训练中建⽴了⼀个超平⾯的分类模型。后续会介绍)
KNN/K最临近算法(K-NearestNeighbor)(K临近就是每个样本都可以⽤它最接近的K个邻居来代表,如⼀个样本,它的K个最接
近的邻居都属于分类A,那么这个样本也属于A)
Adaboost(在训练中建⽴了⼀个联合的分类模型,boost是提升的意思,Adaboost是个构建分类器的提升算法,它可以让多个弱分类
器组成⼀个强分类器,常⽤算法)
CART(代表分类和回归树,它构建了两棵树:⼀颗是分类树,⼀颗是回归树,和C4.5⼀样,是决策树学习⽅法)
2、聚类算法:K-Means,EM
K-Means(我想把物体划分成K类,假设每个类别⾥⾯,都有个‘中⼼点’即意见领袖,它是这个类别的核⼼。现在我有⼀个新点要归
类,这时候就只要计算这个新点与K个中⼼点的距离,距离哪个中⼼点近,就变成哪个类别)
EM/最⼤期望算法(是求参数的最⼤似然估计,原理:假设我们想要评估参数A和参数B,在开始状态下⼆者都是未知的,并且知道
了A的信息就可以知道B的信息,反过来知道了B也就知道了A。可以考虑⾸先赋予A某个初值,以此得到B的估值,然后从B的
估值出发,重新计算A的取值,这个过程⼀直持续到收敛为⽌,常⽤于聚类和机器学习中。)
3、关联分析:Apriori
Apriori(是⼀种挖掘关联规则/associationrules的算法,通过挖掘频繁项集/frequentitemsets来揭⽰物品之间的关联关系,被⼴泛应
⽤到商业挖掘和⽹络安全中。频繁项集是指经常出现在⼀起的物品的集合,关联规则暗⽰着两种物品之间可能存在很强的关系。)
4、连接分析:PageRank
PageRank(被链接次数越多,权重越⾼)
③-数数据据挖挖掘掘的的数数学学原原理理、、本本质质
了解概率论和数理统计,掌握算法的本质;
搞懂线性代数,理解矩阵和向量运作在数据挖掘中的价值;
需要有最优化⽅法的概念,就对迭代收敛理解透彻。
所以说,想要更深刻地理解数据挖掘的⽅法,就必须解它后背的数学原理。
1.概率论与数理统计
在数据挖掘⾥使⽤到概率论的地⽅⽐较多。⽐如条件概率、独⽴性的概念,以及随机变量、多维随机变量的概念。
很多算法的本质都与概率论相关,所以说概率论
原创力文档


文档评论(0)