数据挖掘技术在传统煤矿产业中的应用.docVIP

下载本文档

1
0
约4.45千字
约 8页
2017-07-08 发布于北京
举报

数据挖掘技术在传统煤矿产业中的应用.doc

数据挖掘技术在传统煤矿产业中的应用　　摘要：随着数据挖掘的兴起和蓬勃发展，该技术对于大数据的分析和处理能力吸引了众多研究者的关注。除了互联网、移动互联网等新技术领域，很多传统产业同样需要数据挖掘方法解决实际生产问题。本文首先介绍了数据挖掘常见的基本算法，然后以电子商务和用户节点特征挖掘为例，介绍了数据挖掘技术在煤矿产业中的应用场景和具体方法，旨在启发更多的传统产业通过数据挖掘手段加快信息处理过程，提高信息整合效率。　　关键词：数据挖掘；煤矿产业；电子商务；节点特征挖掘　　一、引言　　数据挖掘是一个年青的、动态变化的、生机勃勃且快速成长的领域，该技术是在当前大量数据日积月累的时代背景下应运而生的[1]。“数据挖掘”一词有广义和狭义两种理解：广义的数据挖掘等同于知识发现过程，共包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示七个步骤；狭义的数据挖掘是知识发现过程中的一个基本步骤。本文的“数据挖掘”更像以上步骤中的第五步，但在此之前通常需要对获取的数据进行清理、选择或变换等预处理操作，为挖掘阶段做准备。　　随着数据挖掘技术的兴起、发展与成熟，很多研究者已将其运用到互联网、移动互联网、社交网络等各个领域，用于发现海量数据中隐藏的信息。事实上，数据挖掘对于大数据的分析和处理能力同样可以运用在传统产业中[2]，本文将从煤矿产业角度出发，介绍数据挖掘技术在传统产业中的应用。首先，本文着重介绍数据挖掘常用的技术；其次，我们以电子商务和用户节点特征挖掘为例，介绍数据挖掘技术在煤矿产业中的应用场景，并总结在具体应用中常见的思路和具体方法。　　二、数据挖掘技术综述　　现实世界中的数据极易受到许多干扰，如噪声、缺失值、不一致数据等，低质量的数据将直接影响挖掘的结果，因此本章将首先介绍数据挖掘中常用的预处理方法。对数据中隐藏模式的挖掘主要通过监督模型和无监督模型实现。监督模型基于对数据的先验知识，分为分类和回归方法；而无监督模型用于对要挖掘的模式毫无先验知识的情况，分为聚类和关联分析方法。本章将以分类和聚类算法为例，具体介绍数据挖掘的基本思想[3]。　　1. 数据预处理　　数据预处理方法很多，一般分为四个步骤：　　数据清理：包括补全缺失值、光滑噪声、识别离群点、纠正数据不一致性。　　数据集成：把多种数据源的数据组合从而形成一个完整的数据集，这里的数据源可能包括多个数据库、数据立方体及一般文件。　　数据规约：通过聚集、删除冗余特征或聚类来降低数据规模，得到数据集的规约表示，而使得信息内容的损失最小化。　　数据变换：用汇总、聚集等方式，将数据变换为可挖掘的统一形式。　　2. 监督模型　　分类算法是监督模型中常用的算法，适用于数据集或数据集中的部分数据有标签的情况，它从每个数据元素都包含分类标签的训练数据开始，通过对训练数据的学习建立一个分类模型，用于将新的数据元素自动分类到训练数据提供的类别中。也就是说，数据分类是一个两阶段过程，包括学习阶段（构建分类模型）和分类阶段（使用模型预测给定数据的类别）。常用的算法有决策树、贝叶斯分类和基于规则的分类等[1]。　　决策树分类器：是从有分类结果标号的训练数据中学习，从而形成一种类似流程图的树结构，每个内部结点表示在某一个属性上的测试，每个分枝代表该测试的一个输出，而每个树叶结点代表一个分类标号。决策树构造的主要方法是自顶向下递归的分治方式。　　?叶斯分类器：属于一种统计学分类方法，用于预测类隶属关系的概率。对分类算法的比较研究发现，朴素贝叶斯的分类结果可以与决策树和神经网络相媲美。　　基于规则的分类器：规则是表示信息或少量知识的好方法，基于规则的分类器是通过一组IF-THEN规则指导分类结果。IF部分表示规则的前提，THEN部分表示规则的结论。　　3. 无监督模型　　聚类算法是无监督模型中的常见算法，适用于数据集合不包含任何标签的情况，即每个数据元素的类标号是未知的。聚类是把数据对象集划分成多个组或簇的过程，使簇内对象相似性很高，但与其他簇中对象相似性很低。相异性和相似性是对结果的评估，主要用距离度量。如果数据源包含大量文本内容，对其进行聚类操作时，通常将文本关键词表示为矩阵形式，进而用余弦距离度量文本相似性。聚类算法可从多方面分类，如根据划分标准、簇的分离性、所使用的相似性度量和聚类空间等。下面介绍几种主要的基本聚类方法。　　划分方法：聚类分析最简单、最基本的方法是划分，它是把数据对象划分成多个互斥的组或簇的过程。具体来说，划分方法是将目标集合中的n个对象划分成k个分区，每个分区即代表聚类结果中的一个簇（kn）。　　层次方法：通过对数据集的层次分解完成聚类，分为凝聚聚类和分裂聚类两种。凝聚聚类是自底向上

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘技术在传统煤矿产业中的应用.docVIP