- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章 数据挖掘简介
1.1 数据挖掘的定义
Data mining is the process of seeking interesting or valuable information in large database.
数据挖掘(data?mining)是近年来数据库应用领域中相当热门的话题。数据挖掘一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、归纳与整合等工作,提取出有用的信息,例如趋势(trend)、模式(pattern)及相关性(relationship)等,并将其中有价值的信息作为决策参考提供给决策者。通俗地说,数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(knowledge?discovery?in database,KDD),也有人称为数据考古学(data archeology)、数据模式分析(data pattern analysis)或功能相依分析(functional dependency analysis)。目前,数据挖掘已经成为数据库系统、机器学习、统计方法等多个学科相互交叉的重要领域,而在实务界,越来越多的企业开始认识到,实施数据挖掘可以为企业带来更多潜在的商业机会。
但我们对数据挖掘应有一个正确的认知:数据挖掘不是一个无所不能的魔法。数据挖掘的种种工具都是从数据中发掘出各种可能成立的“预言”,并对其潜在价值加以“估计”,但数据挖掘本身并不能在实际中查证和确认这些假设,也不能判断这些假设的实际价值。
1.2 数据挖掘的重要性
现代企业经常会搜集大量的数据,这些数据涵盖了市场、客户、供货商,及其竞争对手等重要信息,但是由于信息超载与无结构化,企业的决策者无法充分利用这些庞大的数据资源,仅能使用其中的一小部分,这可能导致决策失误,甚至出现决策错误。而借助数据挖掘技术,企业完全有能力从浩瀚的数据海洋中,挖掘出全面而又有价值的信息和知识,并作为决策支持之用,进而形成企业独有的竞争优势。
1.3 数据挖掘的功能
一般而言,数据挖掘包括下列五项功能,这些功能大多为成熟的计量和统计分析方法。
1.分类(classification)
按照分析个体的属性状态分别加以区分,并建立类组(class)。例如,将信用申请者的风险等级分为高风险、中风险和低风险三类。使用的方法有决策树(decision?tree)、判别分析(discriminant?analysis)、类神经网络(artificial?neural?network),以及记忆基础推理(memory-based reasoning)等。
2.估计(estimation)
根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值。例如,根据信用卡申请者的教育程度和从事职业来设定其信用额度。使用的方法有相关分析、Logistic回归及类神经网络等。
3.预测(prediction)
根据个体属性的已有观测值来估计该个体在某一属性上的预测值。例如,由顾客过去刷卡消费额预测其未来的刷卡消费额。使用的方法有回归分析、时间序列分析及类神经网络等。
4.关联分组(affinity grouping)
从所有对象决定哪些相关对象应该放在一起。例如,超市中相关的洗漱用品(牙刷、牙膏、牙线)放在同一货架上。在客户营销系统上,这类分析可以用来发现潜在的交叉销售(cross-selling)商品聚类,进而设计出有价值的组合商品集合。
5.同质分组(clustering)
将异质总体分成为同质性的类别(clusters),即聚类。其目的是识别出总体中所包含的混合类别的组间差异,并根据每个类别的特征对所有个体进行归类。同质分组相当于营销术语中的细分(segmentation)。应该注意的是:聚类分析根据数据自动产生各个类别,事先是不知道或无须知道总体中潜在的类别信息。使用的方法有k-means等动态聚类法及agglomeration等层次聚类法。
1.4 数据挖掘的步骤
数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响(蔡维欣,2003)。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。
数据挖掘完整的步骤如下:
① 理解数据和数据的来源(understanding)。
② 获取相关知识与技术(acquisition)。
③
您可能关注的文档
- 房屋买卖无效情形和处理.doc
- 房屋装修顺序与注意事项.doc
- 放缓衰老 脚步之四:关节.doc
- 服务质量是指服务能够满足规定与潜在需求特征与特性总与.doc
- 改变内能两种方式.doc
- 改变能改变,接受不能改变--毕业典礼致辞.doc
- 改变一生一句话.doc
- 改变自己方法.doc
- 改革后家乡变化.doc
- 改革面临挑战.doc
- 2023咸阳职业技术学院招聘笔试真题参考答案详解.docx
- 2023四川化工职业技术学院招聘笔试真题及参考答案详解.docx
- 2023哈尔滨职业技术学院招聘笔试真题及参考答案详解.docx
- 2023商洛职业技术学院招聘笔试真题及答案详解1套.docx
- 2023呼伦贝尔职业技术学院招聘笔试真题参考答案详解.docx
- 2023南阳农业职业学院招聘笔试真题参考答案详解.docx
- 2023天津公安警官职业学院招聘笔试真题带答案详解.docx
- 2023年上海电机学院招聘笔试真题参考答案详解.docx
- 2023年四川艺术职业学院招聘笔试真题参考答案详解.docx
- 2023安徽体育运动职业技术学院招聘笔试真题及答案详解一套.docx
最近下载
- 北京市海淀区六年级下册期末卷及答案.pdf VIP
- 石家庄市2025年高三年级教学质量检测(一)数学试卷(含答案).pdf
- 4.1树与二叉树教学设计2023—2024学年浙教版(2019)高中信息技术选修1.docx
- 如何上好一堂美术课课件.pptx
- 商法学 课件( 马工程) 第8--11章 证券法---破产法.pptx
- 济宁三号煤矿8.0 Mt-a新井设计 综采工作面沿空掘巷技术浅析.docx VIP
- ASUS华硕ROG - 玩家国度机箱ROG Z11 OLED editionROG Z11 user's manual for multiple languages.pdf
- T-CAQ 10204-2017 质量信得过班组建设准则.pdf
- 2025年山东省实验中学高三一模高考英语试卷试题(含答案详解).pdf VIP
- 医学免疫学(第7版)PPT课件 第二章 免疫器官和组织.pptx
文档评论(0)