- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 引论 数据挖掘:概念与技术知识 .ppt
数据挖掘:概念与技术 1.4 数据挖掘功能 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。 数据挖掘任务一般有两类: 描述性挖掘:刻画数据库中数据的一般特性。 预测性挖掘:在当前数据上进行推断,以进行预测。 1.4.1 概念描述: 特征化和区分 对数据进行分类。并用汇总的、简洁的、精确的方式描述每个类和概念: 数据特待化:对数据的一般特征或特性汇总。如成绩优的学生。 数据区分:将一个目标数与一个或多个其他类进行比较,例如, 干燥和潮湿的地区。 age(X, “20..29”) ^ income(X, “20..29K”) ?buys(X, “PC”) [support = 2%, confidence = 60%] contains(T, “computer”) ? contains(T, “software”) [support = 1%, confidence = 75%] 1.4.2 关联分析 (相关和因果关系) 找出关联规则,形如:X ?Y。 表示满足X中条件的事务也满足Y中的条件。 * * 数据挖掘:概念与技术第1版或第2版 Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社 第一章 引论 动机:为什么要数据挖掘? 什么是数据挖掘? 数据挖掘:在什么数据上进行? 数据挖掘功能 所有的模式都是有趣的吗? 数据挖掘系统分类 数据挖掘的主要问题 1.1 为什么要数据挖掘 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库 和其他信息存储中。 我们正被数据淹没,但却缺乏知识。 难以将数据转化成信息。 数据库技术的演化 1.2 什么是数据挖掘? 数据挖掘 (数据库中知识发现): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的 并且是潜在有用的) 信息或模式。 其他叫法和“inside stories”: 数据挖掘: 用词不当? 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序 1.2.1 数据挖掘可能的应用 数据库分析和决策支持 市场分析和管理 针对销售(target marketing), 顾客关系管理, 购物篮分析, 交叉销售(cross selling), 市场分割(market segmentation) 风险分析与管理 预测, 顾客关系, 改进保险, 质量控制, 竞争能力分析 欺骗检测与管理 其他应用 文本挖掘 (新闻组, email, 文档资料) 流数据挖掘(Stream data mining) Web挖掘. DNA 数据分析 1. 市场分析与管理 用于分析的数据源在哪? 信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话, (公共) 生活时尚研究 针对销售(Target marketing) 找出顾客群, 他们具有相同特征 : 兴趣, 收入水平, 消费习惯, 等. 确定顾客随时间变化的购买模式 个人帐号到联合帐号的转变: 结婚, 等. 交叉销售分析(Cross-market analysis) 产品销售之间的关联/相关 基于关联信息的预测 顾客分类(Customer profiling) 数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类) 识别顾客需求 对不同的顾客识别最好的产品 使用预测发现什么因素影响新顾客 提供汇总信息 各种多维汇总报告 统计的汇总信息 (数据的中心趋势和方差) 2.风险分析与管理 财经规划和资产评估 现金流分析和预测 临时提出的资产评估 交叉组合(cross-sectional) 和时间序列分析 (金融比率(financial-ratio), 趋势分析, 等.) 资源规划 : 资源与开销的汇总与比较 竞争: 管理竞争者和市场指导 对顾客分类和基于类的定价 在高度竞争的市场调整价格策略 3. 欺骗检测和管理 应用 广泛用于健康照料, 零售, 信用卡服务, 电讯 (电话卡欺骗), 等. 方法 使用历史数据建立欺骗行为模型, 使用数据挖掘帮助识别类似的实例 示例 汽
您可能关注的文档
- 第一章 概述 物流信息相关管理 .ppt
- 第一章 模具的设计基础 ProE模具的设计基础教程(课件)PPT.ppt
- 第一章 沟通和 与商务沟通 商务沟通 .ppt
- 第一章 流体流动演示文稿 制药单元操作技术知识().ppt
- 第一章 测量方法与误差 纤维和纺织品测试技术知识(4版)课件.ppt
- 第一章 游戏特征 学前游戏的设计与指导.ppt
- 第一章 物流法律法规基础相关知识 《物流法律法规》.ppt
- 第一章 环境规划与相关管理概述 环境规划与相关管理电子教案.ppt
- 第一章 现代物流技术知识与设备概述 物流机械 现代物流技术知识与设备 .ppt
- 第一章 班级相关管理概述 班级相关管理课件.ppt
文档评论(0)