- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概念与分类算法(适配主题)精要.ppt
关联规则的度量 发现具有最小置信度和支持度的全部规则 X ^ Y ? Z 支持度(support), s, 事务中包含{X Y Z}的概率 置信度(confidence), c, 事务中包含{X Y}的条件下, 包含Z的条件概率 令最小支持度为50%, 最小置信度为50%, 则有 A ? C (50%, 66.6%) C ? A (50%, 100%) 顾客购买尿布 顾客购买两者 顾客购买啤酒 对支持度与置信度的批判 示例 总共5000名学生, 其中 3000人玩篮球 3750人吃谷类食品 2000人既玩篮球又吃谷类食品 play basketball ? eat cereal [40%, 66.7%] 是一个误导规则, 因为吃谷类食品的学生占学生总数的75%, 比66.7%更高 play basketball ? not eat cereal [20%, 33.3%] 其实是一个更精确的规则, 尽管它的支持度和置信度都比较低 关联规则的应用 市场购物篮分析(Market Basket Analysis) 例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是两个不同的事务 数据项是所有可能陈列货物的全集 目标是发现同时出现的货品组合间的关联模式 应用:商品货价设计、仓储规划、网页布局、产品目录设计等等 交叉销售(Cross Selling) 客户依次购买不同产品的序列 目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务 应用:网络故障分析、网站门户设计等 关联规则的应用实例 我们定义LIFT值大于1的规则为强关联规则。 发现这样的关联规则是有价值,有意义的。 关联规则是基于统计方法发现的数据当中的内在规律,而这种规律在现实中是否有意义还需要市场业务人员作进一步的验证。 业务一 业务二 LSUPPORT RSUPPORT SUPPORT CONFIDENCE LIFT ZSCORE 彩铃业务 手机邮箱 0.0734 0.04032 0.0322 0.43869 10.88021 266.19541 梦网短信 手机邮箱 0.67038 0.04032 0.04032 0.06014 1.49157 40.52694 国内自动漫游 手机邮箱 0.38253 0.04032 0.02037 0.05325 1.32068 19.84956 本地普通通话(比例) 手机邮箱 0.69005 0.04032 0.03059 0.04433 1.09945 8.32042 从算法到应用 广东移动数据挖掘项目的技术特点 几种主要的数据挖掘技术都已经得到广泛的应用 聚类分析 关键规则 分类预测模型(决策树,Logistic回归) 应用了数据挖掘技术之外的机器学习和统计建模技术 KPI预测(混沌时间序列分解预测方法,BP神经网络预测方法) 集团客户流失预警(层次分析法) 更多的数据分析方法 新的挖掘课题更侧重于高级数量分析 客户生命周期(管理营销学的实践,多模型支撑的分析过程) 响应模型(市场分析模型与数据挖掘模型的应用结合) 运筹学模型(应用于经营规划的优化) 目录 数据挖掘的基本概念 数据挖掘与统计分析 数据挖掘的基本算法 数据挖掘实施方法论 数据挖掘实施方法论 数据挖掘过程模型(DM Process Model) 用以管理并指导Data Miner有效、准确开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的规范标准。 由厂商提出的 SPSS的5‘A(Assess, Access, Analysis, Act, Automat) SAS的SEMMA(Sample, Explore, Modify, Model, Assess) MICROSOFI的OLEDB for DM 由行业组织提出的 CRISP-DM(Cross Industry Standard Process for DM) CRISP-DM起源于1998年,当时NCR、Clementine(1998年为SPSS收购)、OHRA和Daimler-Benz(现为Daimler-Chrysler)的联合项目组提出 CRISP-DM的六个阶段 TERATATA的挖掘方法论 Scope Business Problem 度量数称胜 Teradata Data Warehouse Explore Business Facts in DB (EDA) 望闻问切 Model 奇正之变,不可胜穷也 Deploy工欲善其事,必先利其器 Clean Data 谨防假做真时真亦假,无为有处有还无 Select Sample 必也正名乎 CRISP-DM中的元任务(Generic Tasks) CRISP-DM中的业务理解 CRISP-
您可能关注的文档
- 数字电路实验精要.ppt
- 数字电路数字钟,抢答器讲稿精要.ppt
- 数字电路时序电路的基本分析和设计方法精要.ppt
- 数字电路精要.ppt
- 数字电路系统的设计方法..精要.ppt
- 数字电路自动化设计精要.ppt
- 数字电路触发器精要.ppt
- 数字电路设计课件运算模块设计精要.ppt
- 数字电路设计调测方法及电气制图知识(LU)精要.ppt
- 数字电路课程设计——数字闹钟精要.ppt
- 内蒙古自治区鄂尔多斯市第一中学2025-2026学年第一学期高一年级学业诊断检测12月月考语文试卷含答案.pdf
- 四川省2025-2026学年高三上学期12月阶段性自测地理试卷含答案.pdf
- 林区蓄水池防火配套建设指南.ppt
- 四川省2025-2026学年高三上学期12月阶段性自测历史试卷含答案.pdf
- 云南省2025-2026学年高三上学期12月阶段性自测地理试卷含答案.pdf
- 火灾区域生态修复实施指南.ppt
- 云南省2025-2026学年高三上学期12月阶段性自测历史试卷含答案.pdf
- 云南省2025-2026学年高三上学期12月阶段性自测日语试卷含答案.pdf
- 2025年水产养殖科技合作协议(鱼苗).docx
- 2025年水产养殖苗种繁育合作协议协议.docx
原创力文档


文档评论(0)