网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘定义和步骤.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章 数据挖掘简介 1.1 数据挖掘的定义 Data mining is the process of seeking interesting or valuable information in large database. 数据挖掘(data?mining)是近年来数据库应用领域中相当热门的话题。数据挖掘一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、归纳与整合等工作,提取出有用的信息,例如趋势(trend)、模式(pattern)及相关性(relationship)等,并将其中有价值的信息作为决策参考提供给决策者。通俗地说,数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(knowledge?discovery?in database,KDD),也有人称为数据考古学(data archeology)、数据模式分析(data pattern analysis)或功能相依分析(functional dependency analysis)。目前,数据挖掘已经成为数据库系统、机器学习、统计方法等多个学科相互交叉的重要领域,而在实务界,越来越多的企业开始认识到,实施数据挖掘可以为企业带来更多潜在的商业机会。 但我们对数据挖掘应有一个正确的认知:数据挖掘不是一个无所不能的魔法。数据挖掘的种种工具都是从数据中发掘出各种可能成立的“预言”,并对其潜在价值加以“估计”,但数据挖掘本身并不能在实际中查证和确认这些假设,也不能判断这些假设的实际价值。 1.2 数据挖掘的重要性 现代企业经常会搜集大量的数据,这些数据涵盖了市场、客户、供货商,及其竞争对手等重要信息,但是由于信息超载与无结构化,企业的决策者无法充分利用这些庞大的数据资源,仅能使用其中的一小部分,这可能导致决策失误,甚至出现决策错误。而借助数据挖掘技术,企业完全有能力从浩瀚的数据海洋中,挖掘出全面而又有价值的信息和知识,并作为决策支持之用,进而形成企业独有的竞争优势。 1.3 数据挖掘的功能 一般而言,数据挖掘包括下列五项功能,这些功能大多为成熟的计量和统计分析方法。 1.分类(classification) 按照分析个体的属性状态分别加以区分,并建立类组(class)。例如,将信用申请者的风险等级分为高风险、中风险和低风险三类。使用的方法有决策树(decision?tree)、判别分析(discriminant?analysis)、类神经网络(artificial?neural?network),以及记忆基础推理(memory-based reasoning)等。 2.估计(estimation) 根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值。例如,根据信用卡申请者的教育程度和从事职业来设定其信用额度。使用的方法有相关分析、Logistic回归及类神经网络等。 3.预测(prediction) 根据个体属性的已有观测值来估计该个体在某一属性上的预测值。例如,由顾客过去刷卡消费额预测其未来的刷卡消费额。使用的方法有回归分析、时间序列分析及类神经网络等。 4.关联分组(affinity grouping) 从所有对象决定哪些相关对象应该放在一起。例如,超市中相关的洗漱用品(牙刷、牙膏、牙线)放在同一货架上。在客户营销系统上,这类分析可以用来发现潜在的交叉销售(cross-selling)商品聚类,进而设计出有价值的组合商品集合。 5.同质分组(clustering) 将异质总体分成为同质性的类别(clusters),即聚类。其目的是识别出总体中所包含的混合类别的组间差异,并根据每个类别的特征对所有个体进行归类。同质分组相当于营销术语中的细分(segmentation)。应该注意的是:聚类分析根据数据自动产生各个类别,事先是不知道或无须知道总体中潜在的类别信息。使用的方法有k-means等动态聚类法及agglomeration等层次聚类法。 1.4 数据挖掘的步骤 数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响(蔡维欣,2003)。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。 数据挖掘完整的步骤如下: ① 理解数据和数据的来源(understanding)。 ② 获取相关知识与技术(acquisition)。 ③

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档