数据挖掘技术在传统煤矿产业中的应用.docVIP

  • 1
  • 0
  • 约4.45千字
  • 约 8页
  • 2017-07-08 发布于北京
  • 举报

数据挖掘技术在传统煤矿产业中的应用.doc

数据挖掘技术在传统煤矿产业中的应用.doc

数据挖掘技术在传统煤矿产业中的应用   摘要:随着数据挖掘的兴起和蓬勃发展,该技术对于大数据的分析和处理能力吸引了众多研究者的关注。除了互联网、移动互联网等新技术领域,很多传统产业同样需要数据挖掘方法解决实际生产问题。本文首先介绍了数据挖掘常见的基本算法,然后以电子商务和用户节点特征挖掘为例,介绍了数据挖掘技术在煤矿产业中的应用场景和具体方法,旨在启发更多的传统产业通过数据挖掘手段加快信息处理过程,提高信息整合效率。   关键词:数据挖掘;煤矿产业;电子商务;节点特征挖掘   一、引言   数据挖掘是一个年青的、动态变化的、生机勃勃且快速成长的领域,该技术是在当前大量数据日积月累的时代背景下应运而生的[1]。“数据挖掘”一词有广义和狭义两种理解:广义的数据挖掘等同于知识发现过程,共包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示七个步骤;狭义的数据挖掘是知识发现过程中的一个基本步骤。本文的“数据挖掘”更像以上步骤中的第五步,但在此之前通常需要对获取的数据进行清理、选择或变换等预处理操作,为挖掘阶段做准备。   随着数据挖掘技术的兴起、发展与成熟,很多研究者已将其运用到互联网、移动互联网、社交网络等各个领域,用于发现海量数据中隐藏的信息。事实上,数据挖掘对于大数据的分析和处理能力同样可以运用在传统产业中[2],本文将从煤矿产业角度出发,介绍数据挖掘技术在传统产业中的应用。首先,本文着重介绍数据挖掘常用的技术;其次,我们以电子商务和用户节点特征挖掘为例,介绍数据挖掘技术在煤矿产业中的应用场景,并总结在具体应用中常见的思路和具体方法。   二、数据挖掘技术综述   现实世界中的数据极易受到许多干扰,如噪声、缺失值、不一致数据等,低质量的数据将直接影响挖掘的结果,因此本章将首先介绍数据挖掘中常用的预处理方法。对数据中隐藏模式的挖掘主要通过监督模型和无监督模型实现。监督模型基于对数据的先验知识,分为分类和回归方法;而无监督模型用于对要挖掘的模式毫无先验知识的情况,分为聚类和关联分析方法。本章将以分类和聚类算法为例,具体介绍数据挖掘的基本思想[3]。   1. 数据预处理   数据预处理方法很多,一般分为四个步骤:   数据清理:包括补全缺失值、光滑噪声、识别离群点、纠正数据不一致性。   数据集成:把多种数据源的数据组合从而形成一个完整的数据集,这里的数据源可能包括多个数据库、数据立方体及一般文件。   数据规约:通过聚集、删除冗余特征或聚类来降低数据规模,得到数据集的规约表示,而使得信息内容的损失最小化。   数据变换:用汇总、聚集等方式,将数据变换为可挖掘的统一形式。   2. 监督模型   分类算法是监督模型中常用的算法,适用于数据集或数据集中的部分数据有标签的情况,它从每个数据元素都包含分类标签的训练数据开始,通过对训练数据的学习建立一个分类模型,用于将新的数据元素自动分类到训练数据提供的类别中。也就是说,数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类别)。常用的算法有决策树、贝叶斯分类和基于规则的分类等[1]。   决策树分类器:是从有分类结果标号的训练数据中学习,从而形成一种类似流程图的树结构,每个内部结点表示在某一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点代表一个分类标号。决策树构造的主要方法是自顶向下递归的分治方式。   ?叶斯分类器:属于一种统计学分类方法,用于预测类隶属关系的概率。对分类算法的比较研究发现,朴素贝叶斯的分类结果可以与决策树和神经网络相媲美。   基于规则的分类器:规则是表示信息或少量知识的好方法,基于规则的分类器是通过一组IF-THEN规则指导分类结果。IF部分表示规则的前提,THEN部分表示规则的结论。   3. 无监督模型   聚类算法是无监督模型中的常见算法,适用于数据集合不包含任何标签的情况,即每个数据元素的类标号是未知的。聚类是把数据对象集划分成多个组或簇的过程,使簇内对象相似性很高,但与其他簇中对象相似性很低。相异性和相似性是对结果的评估,主要用距离度量。如果数据源包含大量文本内容,对其进行聚类操作时,通常将文本关键词表示为矩阵形式,进而用余弦距离度量文本相似性。聚类算法可从多方面分类,如根据划分标准、簇的分离性、所使用的相似性度量和聚类空间等。下面介绍几种主要的基本聚类方法。   划分方法:聚类分析最简单、最基本的方法是划分,它是把数据对象划分成多个互斥的组或簇的过程。具体来说,划分方法是将目标集合中的n个对象划分成k个分区,每个分区即代表聚类结果中的一个簇(kn)。   层次方法:通过对数据集的层次分解完成聚类,分为凝聚聚类和分裂聚类两种。凝聚聚类是自底向上

文档评论(0)

1亿VIP精品文档

相关文档