- 5
- 0
- 约2.54千字
- 约 7页
- 2018-10-17 发布于福建
- 举报
数据挖掘技术及其的应用
数据挖掘技术及其的应用
摘 要
数据挖掘是一个跨学科的交叉领域,涉及数据库技术、信息检索、机器学习、神经网络、统计学、模式识别、知识获取、人工智能、高性能计算和数据可视化等技术。本文简要介绍了数据挖掘系统的概念、体系结构、方法,并结合具体的例子阐述了数据挖掘和实际应用,最后提出其所面临的挑战。
【关键词】数据挖掘技术 应用研究
1 引言
近年来,各行各业的数据量都在以指数的方式增长。企业要想在激烈的市场竞争中立于不败之地,就要在海量的数据中找到对人们有用的知识,数据挖掘这个课题由此产生。
2 数据挖掘概述
数据挖掘(Data Mining) 是指从大量数据中发现并提取隐藏的、人们事先不知道的但又有可能是用户感兴趣的、有用的信息和知识的一种技术,是研究数据库技术中的一个很有应用价值的新领域。
3 数据挖掘系统的体系结构
数据挖掘系统是将数据挖掘原理与技术融合在一起的软件工具,由以下三个部分组成,如图1所示。第一部分是数据源,包括数据库、数据仓库或其它信息库。数据库或数据仓库服务器会根据用户的数据挖掘请求,负责提取数据源中有用的、重要的数据。第二部分是数据挖掘发动机,由一组功能相关的模块组成,用于执行特征、关联、分类、聚类分析、演变和偏差分析等,它是数据挖掘系统的基本部分。第三部分是图形用户界面,将获取的信息用合适的方式反馈给用户。
4 数据挖掘分析方法
要想从数据源中挖掘出比较准确的、有用的信息,必须使用数据挖掘技术。数据挖掘方法有多种,其中比较典型的有关联分析、分类分析、聚类分析等。
4.1 关联分析
关联分析是一种实用、易用的分析技术,指的是在大量在数据集中发现关联性或者相关性。
设学习集I={i1,i2,…,im}是m个不同数据项的集合,给定一个事务数据库D={T1,T2,…,Tn},其中每一个事务T是一个数据项子集,那么就必然存在TI。一条关联规则就是形如 M→N的蕴藏式,其中MI,NI,且M∩N=?。如果事务数据库D中的信任度包含M的事务同时包含N,则关联规则 M→N在D中信任度C成立。如果事务数据库D中支持度的事务包含M∪N,则关联规则M→N在事务数据库D中具有支持度 S。
在进行关联分析时,最小可信度和最小支持度是用户需要输入的两个参数。关联分析就是产生支持度和信任度分别大于用户指定的最小信任度和最小支持度的关联规则,利用它们可以了解学生的学习情况。如“数据库原理与应用”课程优秀的同学,在学习“Web后台”时为优秀的可能性性达90%,那么这两个数据项间就存在关联性。
4.2 分类分析
分类分析指的是利用一定模型或规则来描述和区分数据类之间的不同。例如,高职院校学生管理数据库中储存着每一位学生的成绩信息,学校根据成绩等级将学生成绩分成5类:优秀、良好、中等、及格、不及格,并且给每条记录标志了类别标记。因此分类分析就是对数据库中的记录数据进行分析,准确描述出每个成绩等级或挖掘分类规则,如“成绩突出的学生指的是那些每科成绩在90分以上,平时不迟到不早退的同学”,然后对其它相同属性的数据库记录再根据分类规则进行分类。目前分类分析的结果可以用多种形式表示,如决策树、基本规则和神经网络等。
4.3 聚类分析
聚类分析就是根据一定的分类规则,将数据库中的数据按相似性对数据集合进行划分,进而为每个数据找到自己的类别归属。这样做可以使类的内部数据之间的差异化最小,类之间数据差异化最大。聚类分析的方法包括分解法、神经网络法、运筹方法等。利用聚类方法可以对相同的数据集合可能划分为不同的运行结果,然后再由人工判断其中的异常情况。
5 数据挖掘的应用
数据挖掘具有广泛的应用前景,广泛应用到各行行业中,特别是在银行、电信、保险、交通、零售、电子商务等行业的客户关系管理(CRM)的实践中,成为解决商业分析问题的典范。主要的应用领域如下:
5.1 决策支持的应用
Advanced Scout是美国的IBM公司开发的一款数据挖掘应用软件。在美国大约有20个球队的NBA教练利用它成功地分析了每个球队不同的队员布阵的相对优势,并找到了合适的战略战术,效果不言而喻。
5.2 市场应用
市场应用主要体现在对消费者习惯的分析、市场营销策略制定、市场定位等。当当网中利用“关联规则”制定促销策略,大大提高了商品的销售率。
5.3 商务应用
商务应用主要以商务智能(BI)技术为主,是指利用数据仓库、数据挖掘技术为基础,对客户数据进行系统地管理和储存,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,如客户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等,为企业的各种经营
原创力文档

文档评论(0)