- 1
- 0
- 约 38页
- 2016-08-05 发布于湖北
- 举报
1
1
费高雷
通信与信息工程学院
2015年春季
第1章 引论
第1章 引论
为什么进行数据
什么是数据挖掘
可以挖掘什么类型的数据
可以挖掘什么类型的模式
使用什么技术
面向什么类型的应用
数据挖掘的主要问题
小结
3
为什么要进行数据挖掘?
数据呈现爆炸式增长:TB—PB(1000T)—?
数据收集和数据存储
自动的数据收集工具、数据库、Web、信息网络
数据来源的多样性
商业:Web 、电子商务、交易、股票、 …
科学:遥感、生物信息学、科学仿真、 …
社会和个人:新闻、照片、视频、…
数据丰富,但信息贫乏(人的理解能力受限)!
“Necessity is the mother of invention”——柏拉图
数据挖掘——从海量数据中挖掘有用信息
第1章 引论
为什么进行数据
什么是数据挖掘
可以挖掘什么类型的数据
可以挖掘什么类型的模式
使用什么技术
面向什么类型的应用
数据挖掘的主要问题
小结
什么是数据挖掘?
数据挖掘 (从数据中挖掘知识):
从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的 并且是潜在有用的) 信息或模式
数据挖掘: 用词不当?
其它叫法和“Necessity is the mother of invention”内幕新闻 :
数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence), 等.
什么不是数据挖掘?
(演绎) 查询处理.
专家系统 或小型 机器学习(ML)/统计程序
处理大量数据/ 有效的可伸缩的技术
数据挖掘过程
数据挖掘:KDD的核心
数据清理
数据集成
选择与变换
数据挖掘
模式评估
数据仓库
任务相关数据
数据库
KDD过程的步骤
学习应用领域:
相关的先验知识和应用的目标
创建目标数据集: 数据选择
数据清理和预处理: (可能占全部工作的 60%!)
数据归约与变换:
发现有用的特征, 维/变量归约, 不变量的表示.
选择数据挖掘函数
汇总, 分类, 回归, 关联, 聚类.
选择挖掘算法
数据挖掘: 搜索有趣的模式
模式评估和知识表示
可视化, 变换, 删除冗余模式, 等.
发现知识的使用
数据挖掘和商务智能
提高支持
商务决策的潜能
最终用户
商务分析人员
数据分析人员
DBA
制定决策
数据表示
可视化技术
数据挖掘
信息发现
数据探查(预处理)
OLAP, MDA
统计分析, 查询和报告
数据仓库 / 数据集市
数据源
文字记录, 文件, 信息提供者, 数据库系统, OLTP系统
第1章 引论
为什么进行数据
什么是数据挖掘
可以挖掘什么类型的数据
可以挖掘什么类型的模式
使用什么技术
面向什么类型的应用
数据挖掘的主要问题
小结
数据挖掘: 在什么数据上进行?
数据库数据
数据仓库
事务数据库(如: 交易数据)
其它类型的数据
空间数据(如:地图)
时间序列数据和流数据
多媒体数据库
异种数据库和遗产数据库
文本数据库和WWW
第1章 引论
为什么进行数据
什么是数据挖掘
可以挖掘什么类型的数据
可以挖掘什么类型的模式
使用什么技术
面向什么类型的应用
数据挖掘的主要问题
小结
数据挖掘功能(1)
概念描述: 特征化和区分
概化、汇总和特征化、特征比较(如:干燥和潮湿的地区)
频繁模式、关联、相关
频繁模式:数据中频繁出现的模式
多维和单维关联
age(X, “20..29”) ^ income(X, “20..29K”) ?buys(X, “PC”)
[support = 2%, confidence = 60%]
contains(T, “computer”) ? contains(T, “software”)
[support = 1%, confidence = 75%]
数据挖掘功能(2)
分类和预测
找出描述和区分类或概念的模型( 函数), 用于标号未知的对象的标号预测/Predict some unknown class labels
例如根据气候对国家分类, 或根据单位里程的耗油量对汽车分类
模型表示: 判定树(decision-tree), 分类规则, 神经网络
预测: 预测某些未知或遗漏的数值值/定量的quantitative输出变量
数据挖掘功能(3)
聚类分析
类标号(Cl
原创力文档

文档评论(0)