- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2019年数据挖掘技术概述
大数据分析和内存计算
第4讲 数据挖掘技术概述
李国良
清华大学计算机系
提纲
数据挖掘概览
数据预处理
分类(Classification)
聚类(Cluster)
关联规则(Association Rule)
回归(Regression)
数据挖掘概览
What?
数据挖掘的定义
Why?
数据挖掘的动机
How?
哪些数据可以用来挖掘?
数据挖掘的主要内容
数据挖掘定义
什么是数据挖掘(Data Mining)?
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data
其他称谓:
Knowledge discovery(mining) in database(KDD), data/pattern analysis, business intelligence, decision-support system, knowledge extraction, data archeology, data dredging and information harvesting etc.
模式有效性度量
Simplicity
E.g., (association) rule length, (decision) tree size
Certainty
E.g., confidence, P(A|B) = #(A and B)/ #(B), classification reliability or accuracy, rule strength, etc.
Utility
Potential usefulness, e.g., support (association), noise threshold (description)
Novelty
Not previously known, surprising (used to remove redundant rules)
为何需要数据挖掘?
数据量大
缺乏理论知识
数据挖掘可以帮助产生新的假说或者使数据变得有意义
为何需要数据挖掘?
We are drowning in data, but starving in knowledge
Data explosion: Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories.
数据挖掘的意义
股票趋势分析
智能交通
数据挖掘应用
银行
美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。
分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等
电子商务
网上商品推荐;个性化网页;自适应网站…
生物制药、基因研究
DNA序列查询和匹配;识别基因序列的共发生性 …
电信
欺诈甄别;客户流失…
保险、零售
数据挖掘应用
神经网络 Neural Networks
聚类分析 Clustering
Open
Accn’t
Add New
Product
Decrease
Usage
???
Time
序列分析 Sequence Analysis
决策树 Decision Trees
倾向性分析
客户保留
客户生命周期管理
目标市场
价格弹性分析
客户细分
市场细分
倾向性分析
客户保留
目标市场
欺诈检测
关联分析 Association
市场组合分析
套装产品分析
目录设计
交叉销售
数据挖掘步骤
数据预处理
数据清理(消除噪音或不一致数据,补缺)
数据集成(多种数据源可以组合在一起)
数据变换(规范化)
数据规约(数据简化)
数据挖掘算法(使用智能方法提取数据模式)
分类、聚类、关联分析、回归预测、文本挖掘
质量评估(识别提供知识的真正有趣模式)
知识表示(可视化和知识表示技术)
数据质量:为何需要数据预处理?
数据质量衡量:
准确度:correct or wrong, accurate or not
完整度:not recorded unavailable
一致性:some modified but some not, dangling
时效性:timely updat
文档评论(0)