- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章传统数据挖掘技术1.3
5.2 统计分析类工具 5.2.1 统计类数据挖掘工具 许多数据挖掘工具都使用了这样一些统计分析过程:决策树推断(C4.5、CART)、规则推断(AQ、CN2、RECON)、最近邻方法、聚类方法、关联规则、特征提取和可视化等。 但是许多常规的数据挖掘工具并不包含一些常用的统计方法。例如,假设检验、实验设计、线性回归、判别分析、各种非线性回归、相关分析和因子分析。 5.2.2 统计类数据挖掘的商业分析 图5.6 商业分析人员在统计类数据挖掘中的作用 数据仓库与数据挖掘技术(第2版) 数据仓库与数据挖掘技术(第2版) 第五章 传统数据挖掘技术 5.1 传统的统计分析类数据挖掘技术 数据挖掘技术从传统意义上说是指数据的统计分析工具。数据挖掘中所采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术。 5.1.1 统计与统计类数据挖掘技术 1.统计与数据挖掘 统计推理分析一般需要借助统计数学模型完成,它是利用已有信息推断未知信息的过程。主要是利用过去的资料推断未来,利用局部资料推断总体,利用相关总体的资料进行变量间关系的推断等。 2.统计类数据挖掘技术 作为统计类的数据挖掘技术包含一般数据库中的聚集函数、数据的度量、数据分布的图形、数据的趋势、数据的最近邻分析和数据的聚类分析等。 5.1.2 数据的聚集与度量技术 1.数据的聚集函数:count()、sum()、avg()、max()、min() 2.算数平均值: 3.加权算数平均值: 5.1.3 柱状图数据挖掘技术 表5-1 客户信用数据库表 图5.1 信用属性柱状图 5.1.4 线性回归数据挖掘技术 线性回归是最简单的回归形式。双变量回归是将一个随即变量Y(称作响应变量)看作另一个随机变量x(称为预测变量)的线性函数,即 假定Y的方差为常数, 是回归系数,分别表示直线在Y轴截距和直线的斜率。这些系数可以用最小二乘法求解,这使得实际数据与该直线的估计之间误差很小。给定 个或形如 回归系数 可以用下式来计算: 表5-2 年薪数据表 图5.2 工作年数与年薪关系分析表 5.1.5 非线性回归数据挖掘技术 非线性回归的模型主要有: 双曲线模型: 二次曲线模型: 对数模型: 三角函数模型: 指数模型: 幂函数模型: 修正指数增长曲线: 5.1.6 聚类数据挖掘技术 图5.3 客户聚类分析图 1.聚类分析原理 其中q=1就是曼哈顿距离, q=2就是欧几里德距离,其余是明考夫斯基距离。 以上是加权明考夫斯基距离。 2.分层聚类 图5.4 客户新增与流失分层聚类图 表5-3 新增与流失客户数据 3.划分聚类 图 k均值划分算法 图 基于k均值方法的一组对象的聚类 图 k中心点划分算法PAM 图 k中心聚类代价函数的四种情况 4.密度聚类 图 在基于密度聚类中密度可达和密度相连性(DBSCAN) 图 OPTICS术语 图 OPTICS中的簇次序 可达距离 对象的簇次序 无定义 ‘ 图 2-D数据集的可能密度函数(DENCLUE) 图 中心定义的簇(顶部)和任意形状的簇(底部)的例子 5.网格聚类 图 STING聚类的层次结构 图 特征空间及其多种分辨率结果 (WaveCluster) 6.模型聚类 图 分类树 图 神经网络方法 The result of SOM clustering of 12088 Web articles The picture on the right: drilling down on the keyword “mining” Based on websom.hut.fi Web page 5.1.7 最近邻数据挖掘技术 图5.5 最近邻的预测数据A、B和C的信用评价情况 数据仓库与数据挖掘技术(第2版) 数据仓库与数据挖掘技术(第2版)
文档评论(0)