2019年数据挖掘技术概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2019年数据挖掘技术概述

大数据分析和内存计算 第4讲 数据挖掘技术概述 李国良 清华大学计算机系 提纲 数据挖掘概览 数据预处理 分类(Classification) 聚类(Cluster) 关联规则(Association Rule) 回归(Regression) 数据挖掘概览 What? 数据挖掘的定义 Why? 数据挖掘的动机 How? 哪些数据可以用来挖掘? 数据挖掘的主要内容 数据挖掘定义 什么是数据挖掘(Data Mining)? Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data 其他称谓: Knowledge discovery(mining) in database(KDD), data/pattern analysis, business intelligence, decision-support system, knowledge extraction, data archeology, data dredging and information harvesting etc. 模式有效性度量 Simplicity E.g., (association) rule length, (decision) tree size Certainty E.g., confidence, P(A|B) = #(A and B)/ #(B), classification reliability or accuracy, rule strength, etc. Utility Potential usefulness, e.g., support (association), noise threshold (description) Novelty Not previously known, surprising (used to remove redundant rules) 为何需要数据挖掘? 数据量大 缺乏理论知识 数据挖掘可以帮助产生新的假说或者使数据变得有意义 为何需要数据挖掘? We are drowning in data, but starving in knowledge Data explosion: Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories. 数据挖掘的意义 股票趋势分析 智能交通 数据挖掘应用 银行 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。 分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等 电子商务 网上商品推荐;个性化网页;自适应网站… 生物制药、基因研究 DNA序列查询和匹配;识别基因序列的共发生性 … 电信 欺诈甄别;客户流失… 保险、零售 数据挖掘应用 神经网络 Neural Networks 聚类分析 Clustering Open Accn’t Add New Product Decrease Usage ??? Time 序列分析 Sequence Analysis 决策树 Decision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测 关联分析 Association 市场组合分析 套装产品分析 目录设计 交叉销售 数据挖掘步骤 数据预处理 数据清理(消除噪音或不一致数据,补缺) 数据集成(多种数据源可以组合在一起) 数据变换(规范化) 数据规约(数据简化) 数据挖掘算法(使用智能方法提取数据模式) 分类、聚类、关联分析、回归预测、文本挖掘 质量评估(识别提供知识的真正有趣模式) 知识表示(可视化和知识表示技术) 数据质量:为何需要数据预处理? 数据质量衡量: 准确度:correct or wrong, accurate or not 完整度:not recorded unavailable 一致性:some modified but some not, dangling 时效性:timely updat

文档评论(0)

tangtianbao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档