- 1、本文档共632页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘基础
1数据挖掘的基本任务目录数据挖掘发展史2数据挖掘的通用流程3常用数据挖掘建模工具4Python数据挖掘环境配置5
数据挖掘的发展史1989年从数据库中发现知识(KDD)1995年第一届国际知识发现与数据挖掘大会1997第三届国际学术大会
数据挖掘发展史数据挖掘是知识发现中的核心部分,它是指从数据集合中自动抽取隐藏在数据中的那些有价值的信息的过程。
1数据挖掘的基本任务目录数据挖掘发展史2数据挖掘的通用流程3常用数据挖掘建模工具4Python数据挖掘环境配置5
分类与回归预测分类是一种对离散型随机变量建模或预测的方法,如:客户流失预测;而回归是通过建模来研究变量之间相互关系的密切程度、结构状态以及进行模型预测的工具,如财政收入预测等。数据挖掘的基本任务
聚类分析代垫学生高收入贸易文书高矮低收入Group1Group2Group3Groupn聚类分析是指在预先不知道类别标签的情况下,根据信息的相似度原则进行信息聚集的一种方法。目的是使得类别内数据的“差异性”尽可能小(即“同质性”尽可能大),类别间“差异性”尽可能大。数据挖掘的基本任务
关联规则关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互依赖关系。这种存在于给定数据集中的频繁出现的关联模式,又称为关联规则。前项(Antecedent)后项(Consequent)蔬菜鲜鱼红酒?啤酒?前项(Antecedent)后项(Consequent)耳机?内存?手机配饰前提(1)前提(2)…前提(m)?结论AntecedentsConsequentBuyingPattern数据挖掘的基本任务
智能推荐智能推荐用于联系用户和信息,并利用信息分析用户的兴趣偏好,为用户推荐感兴趣信息。数据挖掘的基本任务
时间序列对不同时间下取得的样本数据进行挖掘,用于分析样本数据之间的变化趋势,如:股指预测、天气预测等。时间数据挖掘的基本任务
1数据挖掘的基本任务目录数据挖掘发展史2数据挖掘的通用流程3常用数据挖掘建模工具4Python数据挖掘环境配置5
数据挖掘的通用流程
数据挖掘的通用流程抽取数据的标准:相关性、可靠性、有效性衡量数据质量的标准:资料完整无缺,各类指标项齐全;数据准确无误,反映的都是正常状态下的水平。
数据挖掘的通用流程随机抽样等距抽样分层抽样按起始顺序抽样分类抽样抽取方式:
1数据挖掘的基本任务目录数据挖掘发展史2数据挖掘的通用流程3常用数据挖掘建模工具4Python数据挖掘环境配置5
常用数据挖掘建模工具Python是一种面向对象、解释性的计算机程序设计语言,它拥有高效的数据结构。
R是一种由统计计算基金会支持的用于统计计算和图形的编程语言和自由软件环境,R语言及其库实现了各种各样的统计和图形技术,包括线性和非线性建模、时间序列分析、分类、聚类等。常用数据挖掘建模工具
Matlab是一种主要用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言。常用数据挖掘建模工具
SPSS(StatisticalProductandServiceSolutions)采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据,输出结果十分美观。常用数据挖掘建模工具
KNIME是基于Java开发的,采用类似数据流的方式来建立分析挖掘模型。常用数据挖掘建模工具
RapidMiner也叫YALE(YetAnotherLearningEnvironment),提供图形化界面,拖拽操作,无需编程,运算速度快。常用数据挖掘建模工具
TipDM开源建模平台是基于Python引擎的,可以通过拖拽功能组件的方式实现数据的输入输出,数据预处理,挖掘建模,模型评估等操作,以达到数据挖掘的目的。常用数据挖掘建模工具
1数据挖掘的基本任务目录数据挖掘发展史2数据挖掘的通用流程3常用数据挖掘建模工具4Python数据挖掘环境配置5
Anaconda是一个Python的集成开发环境,可以便捷的地获取库,且提供对库的管理功能,对环境可以进行统一管理。Python数据挖掘环境配置
Python数据挖掘环境配置
Python数据挖掘环境配置
Python数据挖掘环境配置
Python数据挖掘环境配置
Python数据挖掘环境配置
Python数据挖掘环境配置
小结本章节主要介绍数据挖掘的基础知识,包括数据挖掘的发展史、基本任务、通用流程和常用工具,以及Python数据挖掘的环境配置。数据
文档评论(0)