2-数据挖掘的学习路径.pdfVIP

下载本文档

4
0
约2.54千字
约 2页
2024-07-20 发布于北京
举报
版权申诉

2-数据挖掘的学习路径.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2-数数据据挖挖掘掘的的学学习习路路径径

⼀⼀、、数数据据挖挖掘掘知知识识清清单单

①-数数据据挖挖掘掘的的过过程程可可以以分分成成以以下下6个个步步骤骤。。

1、商业理解：挖掘是⽬的，帮助业务才是⽬的，从商业的⾓度理解项⽬需求，再开始定义挖掘⽬的

2、数据理解：收集、探索数据，包含数据描述、数据质量验证等

3、数据准备：收集数据，并对数据进⾏清洗、数据集成等操作，完成数据挖掘前的准备⼯作。

4、模型建⽴：选择和应⽤各种数据挖掘模型，并进⾏优化，以便得到更好的分类结果。

5、模型评估：对模型进⾏评价，并检查构建模型的每个步骤，确认模型是否实现了预定的商业⽬标。

6、上线发布：可⽤是报告、可复⽤的数据挖掘过程等，数据挖掘结果如果是⽇常运营的⼀部分，那么后续监控维护就很重要

②-数数据据挖挖掘掘的的⼗⼗⼤⼤算算法法

为了进⾏数据挖掘任务，数据科学家们提出了各种模型，在众多的数据挖掘模型中，国际权威的学术组织ICDM（theIEEEInternational

ConferenceonDataMining）评选出了⼗⼤经典的算法。

1、分类算法：C4.5，朴素贝叶斯（NaiveBayes），SM，KNN，Adaboost，CART

C4.5/决策树算法（⼗⼤算法之⾸，在决策树构造过程中进⾏剪枝，且可以处理连续属性，也能对完整的数据进⾏处理）

朴素贝叶斯/NaiveBayes（基于概率论的原理，主要思想：对于给出未知物体想要进⾏分类，就需要求解在这个未知物体出现的条件

下各个类别出现的概率，哪个最⼤就认为这个未知物体属于哪个分类）

SM/⽀持向量机（SupportectorMachine）（在训练中建⽴了⼀个超平⾯的分类模型。后续会介绍）

KNN/K最临近算法（K-NearestNeighbor）（K临近就是每个样本都可以⽤它最接近的K个邻居来代表，如⼀个样本，它的K个最接

近的邻居都属于分类A，那么这个样本也属于A）

Adaboost（在训练中建⽴了⼀个联合的分类模型，boost是提升的意思，Adaboost是个构建分类器的提升算法，它可以让多个弱分类

器组成⼀个强分类器，常⽤算法）

CART（代表分类和回归树，它构建了两棵树：⼀颗是分类树，⼀颗是回归树，和C4.5⼀样，是决策树学习⽅法）

2、聚类算法：K-Means，EM

K-Means（我想把物体划分成K类，假设每个类别⾥⾯，都有个‘中⼼点’即意见领袖，它是这个类别的核⼼。现在我有⼀个新点要归

类，这时候就只要计算这个新点与K个中⼼点的距离，距离哪个中⼼点近，就变成哪个类别）

EM/最⼤期望算法（是求参数的最⼤似然估计，原理：假设我们想要评估参数A和参数B，在开始状态下⼆者都是未知的，并且知道

了A的信息就可以知道B的信息，反过来知道了B也就知道了A。可以考虑⾸先赋予A某个初值，以此得到B的估值，然后从B的

估值出发，重新计算A的取值，这个过程⼀直持续到收敛为⽌，常⽤于聚类和机器学习中。）

3、关联分析：Apriori

Apriori（是⼀种挖掘关联规则/associationrules的算法，通过挖掘频繁项集/frequentitemsets来揭⽰物品之间的关联关系，被⼴泛应

⽤到商业挖掘和⽹络安全中。频繁项集是指经常出现在⼀起的物品的集合，关联规则暗⽰着两种物品之间可能存在很强的关系。）

4、连接分析：PageRank

PageRank（被链接次数越多，权重越⾼）

③-数数据据挖挖掘掘的的数数学学原原理理、、本本质质

了解概率论和数理统计，掌握算法的本质；

搞懂线性代数，理解矩阵和向量运作在数据挖掘中的价值；

需要有最优化⽅法的概念，就对迭代收敛理解透彻。

所以说，想要更深刻地理解数据挖掘的⽅法，就必须解它后背的数学原理。

1.概率论与数理统计

在数据挖掘⾥使⽤到概率论的地⽅⽐较多。⽐如条件概率、独⽴性的概念，以及随机变量、多维随机变量的概念。

很多算法的本质都与概率论相关，所以说概率论

您可能关注的文档

文档评论（0）

idowen + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2-数据挖掘的学习路径.pdfVIP