数据挖掘模型介绍.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2聚类分析—举例说明 程序运行结果: 第一类:价值最高的客户2家:公司14、19 第二类:价值较高的客户有8家:公司2、5、7、8、13、15、18、20 第三类:价值偏低的客户有10家 关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。 3.关联规则 关联规则的挖掘就是在事务数据库D中找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则。 最小支持度minsup :用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度。 最小置信度minconf :用户规定的关联规则必须满足的最小置信度,它反应了关联规则的最低可靠度。 3.关联规则 算法1 算法2 数据集 规则 用 户 最小支持度 最小置信度 关联规则挖掘的基本模型 满足的条件: 1、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型 例:性别=“女”=职业=“秘书”、性别=“女”=avg(收入)=2300 2、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则 例:IBM台式机=Sony打印机、台式机=Sony打印机 3、基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的 例:啤酒=尿布、性别=“女”=职业=“秘书” 3.关联规则 3.关联规则 3.关联规则 3.关联规则 3.关联规则 3.关联规则 3.关联规则 3.关联规则 假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。 3.关联规则—举例说明 左表中是顾客购买记录的数据库D,包含6个事务。 项集I={网球拍,网球,运动鞋,羽毛球}。 考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。 若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。 问题:客户 时间 产品,即客户在什么时间点购买了什么产品,如果客户购买了多个产品则有多条记录。产品之间的关联性? 数据集:SAS EM自带的数据集,SAMPSIO.ASSOCS 3.关联规则—举例说明 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。 4.预测 任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。 函数关系:当一个变量x取一定值时,另一变量y可以按照确定的函数公式取一个确定的值,记为y?=?f(x),则称y是x的函数,也就时说y与x两变量之间存在函数关系。 统计关系:衡量事物之间或者变量之间的线性相关强弱程度用适当的统计指标表示出来,称为相关分析。比较直观的如散点图,但不精确! 统计线性相关关系度量:回归模型 4.预测:回归分析 回归模型条件: 1、确实存在显著相关关系 2、确实存在直线相关关系 3、应根据最小平方法 4、解释变量为非随机变量 5、同方差:各随机扰动项的方差相同 6、无自相关:各随机扰动项互不相关 7、误差项与解释变量不相关 8、随机扰动项均服从正态分布 9、残差项符合正态分布、被解释变量符合正态分布 数据要求: 一般解释变量和被解释变量为连续性变量,但对于离散型与定性变量有特殊处理方法 4.预测:回归分析 回归大类:线性回归、多元回归和非线性回归 线性回归:Y = ? + ? X 其中?和?是回归系数,可以根据给定的数据点,通过最小二乘法来求得 多元回归:Y = ? + ?1X1 + ?2 X2 线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的?,?1 和?2 非线性回归:Y = ? + ?1X1 + ?2 X22+ ?3 X33 对不呈线性依赖的数

文档评论(0)

159****1748 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档