- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
上篇
数据预处理
漘第1章数据挖掘导引
漘第2章数据概览
漘第3章用R获取数据
»第4章探索性数据分析
溽第5章数据预处理.
数据挖掘导引
数据挖掘这一学科已成为统计学、机器学习等诸多领域的研究热点,数据挖掘技术已成为大
数据时代最热门的技术。
数据挖掘近年来发展异常迅猛,不仅产生了大量不同类型、功能强大的挖掘算法,而且也推
动了众多数据挖掘工具软件的发展。在这些软件当中,R已悄然成为了数据挖掘领域最重要的软
件之一。
R是一个包含众多科学、工程统计的庞大系统,是目前世界上最流行的统计软件之一。R既
是用于统计计算和统计制图的优秀工具,又是大数据分析和挖掘的重要工具。
1.1数据挖掘概述
数据挖掘 (Data Mining)是指通过系统分析从大量数据中提取隐藏于其中的规律,并用这些规
律来预测未来或指导未来工作的科学。数据挖掘是近年来数据应用领域中相当热门的议题之一。
从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的、看似杂乱的
实际数据中,提取隐含在其中的、人们不知道的,但又是潜在有用的信息和知识的过程。
数据挖掘就是寻找隐藏在数据中的信息的过程,如趋势、特征及相关性,也就是从数据中发
掘信息或知识。
1.1.1数据挖掘的过程
数据挖掘的过程会随所应用的专业领域的不同而有所变化。每一种数据挖掘技术都有各自的
特性以及使用步骤,因此针对不同需求所发展出的数据挖掘过程也存在差异,如数据的完整程度、
专业人员的支持程度等都会对建立数据挖掘的过程有所影响,也因此造成了数据挖掘在不同领域
第1章数据挖掘导引 11
之间整个规划流程上的差异。即使是同一产业,也会因为不同的分析技术结合了不同程度的专业
知识,而产生明显的差异。
一般而言,常见的数据挖掘过程,可以分为三个主要阶段:数据准备、数据挖掘以及结果表
达与解释,如图1-1所示。
数据准备 数据挖掘 结果表达与解释
数据集成 集成 数据选择 目标 数据 预处理后
数据源
数据 数据 预处理 的数据
结果表达和转换 数据挖掘
商业
知识 模式
图1-1数据挖掘过程
1. 数据准备
(1) 数据集成
了解领域特点,确定用户需求。将多文件或多数据库运行环境中的数据进行合并处理,解决
语义模糊性,处理数据中的遗漏和清洗脏数据等。
(2) 数据选择
从原始数据库中选取相关数据或样本。为知识发现的目标搜索和选择有关的数据,这包括不
同模式数据的转换和数据的统一和汇总。数据选择的目的是辨别出需耍分析的数据集合,缩小处
理范围,提高数据挖掘的质量。
(3) 数据预处理
检查数据的完整性及一致性,消除噪声等。对数据进行清理和充实等预处理工作,也包括对
数据编码,数据库中字段的不同取值转换成数码形式将有利于搜索。
2. 数据挖掘
此阶段进行实际的挖掘操作,利用机器学习、统计分析等方法,从数据库中发现奋用的模式
或知识。数据挖掘阶段的主要步骤如下。
12 数据挖掘:R语言实战
(1) 确定挖掘目标:确定耍发现的知识类型。
(2) 选择算法:根据确定的目标选择合适的数据挖掘算法。
(3) 数据挖掘:运用所选算法,提取相关知识并以一定的方式表示。
3.结果表达与解释
根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决
策支持工具提交给决策者。这一步骤的主要任务包括如下两项。
文档评论(0)