- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
移动数据挖掘交流材料.ppt
议 程 安 排 数据挖掘原理 定义:KDD是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式(pattern)的非平凡的处理过程。 最近,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。” 数据挖掘分类 挖掘对象 基于数据库的挖掘 基于web的挖掘 基于文本的挖掘 其他,如音频、视频等多媒体数据库 用户使用 响应模型 交叉销售模型 客户评价模型 分段模型 数据挖掘分类 分析数据挖掘的任务是从数据中发现模式。模式按功能分为预测型(Predictive)和描述型(Descriptive),而按实际作用可分为以下几种模式: 分类:首先从数据中选择已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对没有分类的数据进行分类; 预测:用历史来预测未来,回归的方法; 关联分析:关联规则; 聚类:物以类聚; 序列模式:是指在多个数据序列中发现共同的行为模式; 描述和可视化:数据挖掘的结果的表示形式; 偏差分析:从数据分析中发现异常情况也是很重要的,基本方法是寻找观察结果与参照之间的差别。观察常常是某一个域的值或多个域值的汇总。参照是给定模型的预测、外界提供的标准或另一个观察 数据挖掘分类 挖掘模型 决策树(decision tree) 关联规则(association rules) 聚类(clustering) 神经网络(Artificial Neural Networks,简记作ANN) 粗糙集(rough set) 概念格(concept lattice) 遗传算法(genetic algorithms) 序列模式(sequence pattern) 贝叶斯(Bayes) 支持向量机(support vector machine,简记作SVM) 模糊集(fuzzy set) 基于案例的推理(case-based reasoning,简记作CBR) 决策树 决策树是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则; 决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树. 聚类 聚类是根据数据的不同特征,将其划分为不同的簇(cluster),目的是使得属于同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别(相异度)较大; 聚类技术大致分为五种: 划分方法(partitioning method) 层次方法(hierarchical method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的方法(model-based method) 议 程 安 排 常用工具——Excel 常用工具——Excel 常用工具——SPSS 常用工具——SPSS 常用工具——SPSS 常用工具——SPSS 常用工具——Clementine 常用工具——Clementine 议 程 安 排 客户细分 议 程 安 排 流失预警 问题与讨论 2004-6-14 梅州移动数据挖掘交流 精点科技数据服务部 李青海 2009年2月 数据挖掘原理 1 4 流失预警 常用工具介绍 客户细分 3 2 数据挖掘原理 1 4 流失预警 常用工具介绍 客户细分 3 2 相关性分析 回归分析 SPSS 是Statistical Program for Social Sciences 的简称,即社会科学统计程序,由美国SPSS公司1970年代推出,迄今已有近30多年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statis)。 SPSS界面: 数据表 变量表 相关性分析 概率分布 列联分析 Clementine 是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。 资料流程区 管理器 选项版区 专案 报告窗口 状态视窗 常用功能: 描述功能 数据审计(Data Audit) 散点分布(Plot) 频度分布(Histogram) 建模功能 线性回归(Regression) Logistic回归(Logistic) 决策树(C5.0) 二步聚类(Twos
您可能关注的文档
最近下载
- 2024年10月27日云南昭通市事业单位选调笔试真题及答案解析.doc VIP
- 讲义总结岩土工程勘察讲义.ppt VIP
- 非常规油气勘探开发地质风险评估.pdf
- 中职 图形图像处理(Photoshop CS5)PS(第7章)教学课件 高教版.ppt VIP
- 市政道路监理规划-范本.pdf VIP
- 2025海南省通信网络技术保障中心招聘事业编制人员12人(第1号)笔试模拟试题及答案解析.docx VIP
- 《飞机上应急医疗》课件——心肺复苏的流程.pptx VIP
- 中职 图形图像处理(Photoshop CS5)PS(第6章)教学课件 高教版.ppt VIP
- 抖音直播社区公约.pdf VIP
- 地质灾害治理工程施工技术规范 DB50_T 989-2020 重庆.pdf VIP
文档评论(0)