第五章传统数据挖掘技术1.3.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章传统数据挖掘技术1.3

5.2 统计分析类工具 5.2.1 统计类数据挖掘工具 许多数据挖掘工具都使用了这样一些统计分析过程:决策树推断(C4.5、CART)、规则推断(AQ、CN2、RECON)、最近邻方法、聚类方法、关联规则、特征提取和可视化等。 但是许多常规的数据挖掘工具并不包含一些常用的统计方法。例如,假设检验、实验设计、线性回归、判别分析、各种非线性回归、相关分析和因子分析。 5.2.2 统计类数据挖掘的商业分析 图5.6 商业分析人员在统计类数据挖掘中的作用 5.2.3 统计类数据挖掘工具的功能 1.可视化功能 2.探索功能 3.统计和操作功能 4.数据管理功能 5.显示功能 6.数据挖掘结果描述功能 7.开发工具 8.可接受的响应时间 5.2.4 统计类数据挖掘工具-spss SPSS功能: 1.基本统计分析 2.回归分析 3.相关分析 4.分类分析 5.因子分析 5.3 统计分析类工具的应用 5.3.1 趋势分析 图 股票价格的时间序列数据 5.3.2 时序分析 图 时间序列数据中的子序列匹配 5.3.3 周期分析 图5.10 超市销售情况周变化趋势 5.4 统计分析类工具应用的问题 5.4.1 统计类数据挖掘的预处理问题 数据清理包括空缺值处理、噪声数据处理和不一致数据处理: 1.空缺值处理 1)忽略元组 2)人工填写空缺值 3)使用一个全局变量填充空缺值 4)使用属性的平均值填充空缺值 5)使用最可能的值填充空缺值 2.噪声数据处理 1)分箱 2)聚类 3)计算机和人工检查结合 4)回归 图5.11 分箱技术的示例 3.不一致数据的处理 对于有些事务,所记录的数据可能存在不一致。 1)有些数据的不一致可以通过使用其他数据进行人工更正。 2)知识工程工具也可以用来检测违反限制的数据。 5.4.2 统计分析应遵循的基本原则 1.与定性分析相结合的原则 2.连贯和类推原则 3.统计资料的可靠性和分析公式的适应性原则 5.4.3 统计分析的步骤 1.确定挖掘对象 2.收集、审核及分析统计数据 3.确定分析模型、选择合适的统计分析方法 4.进行分析处理 5.误差分析 5.4.4 统计类数据挖掘的性能问题 统计分析作为一种有力的数据挖掘技术,可以了解客户、市场、产品和其他关键商业参数,但在使用中也存在一些问题,例如: (1)统计分析需要相当一部分统计分析员和商业分析员的分析劳动. (2)成功的可能性很大程度上依赖于商业分析员解决问题的能力,不能自行查找隐藏在数据背后的知识. (3)在许多情况下,商业分析员并不知道要查找什么,或者无法选择离散的变量来启动分析处理。此时,统计分析工具就难以承担重任. (4)在进行市场细分时,很难集成和分析非数字化数据(如地理数据),因此一般情况下只适合数字化的数据处理. (5)一般很难以合理的成本获得可接受的响应时间,即在使用统计类数据挖掘工具过程中往往需要较高的成本投入,但是却不能很快获得管理人员所需要的挖掘结果. 数据仓库与数据挖掘技术(第2版) 数据仓库与数据挖掘技术(第2版) 第五章 传统数据挖掘技术 5.1 传统的统计分析类数据挖掘技术 数据挖掘技术从传统意义上说是指数据的统计分析工具。数据挖掘中所采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术。 5.1.1 统计与统计类数据挖掘技术 1.统计与数据挖掘 统计推理分析一般需要借助统计数学模型完成,它是利用已有信息推断未知信息的过程。主要是利用过去的资料推断未来,利用局部资料推断总体,利用相关总体的资料进行变量间关系的推断等。 2.统计类数据挖掘技术 作为统计类的数据挖掘技术包含一般数据库中的聚集函数、数据的度量、数据分布的图形、数据的趋势、数据的最近邻分析和数据的聚类分析等。 5.1.2 数据的聚集与度量技术 1.数据的聚集函数:count()、sum()、avg()、max()、min() 2.算数平均值: 3.加权算数平均值: 5.1.3 柱状图数据挖掘技术 表5-1 客户信用数据库表 图5.1 信用属性柱状图 5.1.4 线性回归数据挖掘技术 线性回归是最简单的回归形式。双变量回归是将一个随即变量Y(称作响应变量)看作另一个随机变量x(称为预测变量)的线性函数,即 假定Y的方差为常数, 是回归系数,分别表示直线在Y轴截距和直线的斜率。这些系数可以用最小二乘法求解,这使得实际数据与该直线的估计之间误差很小。给定 个或形如 回归系数 可以用下式来计算: 表5-2 年薪数据表 图5.2 工作年数与年薪关系分析表 5.1.5 非线

文档评论(0)

sandaolingcrh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档