- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十四章知识发现(pdf)-智能科学网站
高级人工智能
第十四章
大数据挖掘
Big Data Mining
史忠植
中国科学院计算技术研究所
内容提要
概述
知识发现
数据仓库
数据挖掘工具
云计算
大数据挖掘
2015/4/1 史忠植大数据挖掘 2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。
范围非常广泛:经济、工业、农业、军事、社会
数据的形态多样化:数字、符号、图形、图像、声
音
数据组织各不相同:结构化、半结构化和非结构
发现的知识可以表示成各种形式:规则、科学规律、
方程或概念网。
2015/4/1 史忠植大数据挖掘 3
数据库知识发现
目前, 关系型数据库技术成熟、应用广泛。
因此, 数据库知识发现(Knowledge
Discovery in Databases KDD)的研究非常活
跃。
该术语于1989年出现,Fayyad定义为
“KDD是从数据集中识别出有效的、新颖的、
潜在有用的,以及最终可理解的模式的非平凡
过程”
2015/4/1 史忠植大数据挖掘 4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交
叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。
数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界
知识抽取(information extraction)、
信息发现 (information discovery)、
智能数据分析(intelligent data analysis)、
探索式数据分析 (exploratory data analysis)
信息收获 (information harvesting)
数据考古(data archeology)
2015/4/1 史忠植大数据挖掘 5
2015/4/1 史忠植大数据挖掘 6
知识发现的任务
数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计
算出数据库的各个字段上的求和值、平均值、方差值等统计
值,或者用直方图、饼状图等图形方式表示。
分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般
需要有一个训练样本数据集作为输入。
聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
2015/4/1 史忠植大数据挖掘 7
知识发现的任务
相关性分析:
发现特征之间或数据之间的相互依赖关系
关联规则
偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通
过发现异常, 可以引起人们对特殊情况的加倍注意。
建模:
构造描述一种活动或状态的数学模型
2015/4/1 史忠植大数据挖掘 8
知识发现的方法
统计方法:
传统方法:
回归分析、判别分析、聚类分析、探索性分析
模糊集
文档评论(0)