- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘算法综述摘要:数据挖掘技术在当前研究领域中算是比较热门的一项技术,从国外发展到中国,具有广阔的商业应用前景。本文主要概述了当前数据挖掘的七大方法(分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘)和十大经典算法(C4.5,K-Means,SVM,Apriori,EM,?PageRank,?AdaBoost,?kNN,?Naive Bayes,CART),以及数据挖掘的发展趋势。关键词:数据挖掘,常用方法,经典算法1 引言 在当今信息爆炸的时代,伴随着社会事件和自然活动的大量产生(数据的海量增长),人类正面临着“被信息所淹没,但却饥渴于知识”的困境。随着计算机软硬件技术的快速发展、企业信息化水平的不断提高和数据库技术的日臻完善,人类积累的数据量正以指数方式增长 。面对海量的、杂乱无序的数据,人们迫切需要一种将传统的数据分析方法与处理海量数据的复杂算法有机结合的技术。数据挖掘技术就是在这样的背景下产生的。它可以从大量的数据中去伪存真,提取有用的信息,并将其转换成知识。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、模式识别、模糊数学和数理统计等最新技术的研究成果,可以用来支持商业智能应用和决策分析。例如顾客细分、交叉销售、欺诈检测、顾客流失分析、商品销量预测等等,目前广泛应用于银行、金融、医疗、工业、零售和电信等行业。数据挖掘技术的发展对于各行各业来说,都具有重要的现实意义。2 数据挖掘的概念2.1 什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程.在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理(O乙心),从而得出可供决策参考的统计分析数据.在深层次上,则从数据库中发现前所未有的、隐含的知识.OLAF的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。 OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。2.2 数据挖掘的特点数据挖掘技术具有以下特点:1. 处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。2. 查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。3. 在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。4. 数据挖掘中,规则的发现基于统计规律.因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效.因此,利用数据挖掘技术可能会发现大量的规则。5. 数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。2.3 数据挖掘的应用基础 数据挖掘是一种获得知识的技术。它的基础是数据,手段是各种算法,目的是获得数据中蕴含的知识。发现知识并非易事,人们总是受到各种各样的局限,目前数据缺乏仍然是发现知识的瓶颈。随着数据采集和存储技术的发展,对大量数据的分析和使用成为一个新的难题。对数据挖掘应用而言,知识的发现存在两个极限,一个是数据极限,即数据要么非常庞大,要么数据量足够小,或者数据量小但维度非常大;另一个是算法极限,即针对很多数据(不同的性质,不同的形式)和很多需求,目前所有的算法尚不能很好地解决某些问题。因此,数据挖掘应用具有三个要素:数据,算法,知识。 数据挖掘应用是一个多层次、流程化的工程任务,开展数据挖掘应用也需要从每个层面加以处理,才能保证整个数据挖掘的成功运行。数据挖掘 应用从上到下可分为三个大层面,具体结构如下图1所示:图1?数据挖掘应用的三大层面应用层:把数据挖掘结果应用于实践。算法层:提供算法、引擎和界面。数据层:提供数据源、数据探索、数据准备。3 数据挖掘的常用方法 数据挖掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和模式识别与人工智能等领域有机结合起来,它能组合各个领域的优点,从而能从数据中挖掘到其他传统方法不能发现的有用知识。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、
您可能关注的文档
- 破碎机转子检修方案定稿技术总结.docx
- 普通带式输送机设计技术总结.docx
- 数据定义补充技术总结.pptx
- 数据库3错题集技术总结.docx
- 数据库复习技术总结.docx
- 数据库复习题技术总结.docx
- 数据库复习重点概念技术总结.docx
- 数据库基础与应用形成性考核册技术总结.docx
- 数据库题库技术总结.docx
- 数据库系统及应用教程期末复习技术总结.docx
- 2025年湖北省烟草专卖局系统题库带答案分析试卷及答案.docx
- 2025年辽阳市卫生健康委直属事业单位招聘专业技术人员题库带答案分析.docx
- 2025年内蒙古锡林郭勒职业学院招聘题库带答案分析.docx
- 药事管理学法规模拟.docx
- 2025年北京市公安局平谷分局招聘勤务辅警题库带答案分析.docx
- 2025年中考历史总复习世界现代史知识梳理提纲(填空版).docx
- 2025年昆明市发展和改革委员会招聘题库带答案分析.docx
- 2025年郑州航空大都市研究院有限公司招聘题库带答案分析.docx
- 2025年中考历史总复习世界现代史必考重点复习提纲(精品).docx
- 2025年绍兴市司法局选选调选调题库带答案分析.docx
最近下载
- 国开02047_政府经济学-机考复习资料.docx VIP
- 特殊教育:培智部五年级生活数学B卷.docx
- OBE理念指导下的软件实训课教学改革实践探索.docx VIP
- 安检现场处置单位广州民航王超58课件.pptx VIP
- (2025春新版本)七年级下册道德与法治知识点总结.pdf VIP
- 微软-2025-该年前沿企业诞生(英译中).pdf
- 2024年华为认证HCIE存储H13-629必备考试题库大全(含答案).docx VIP
- 房地产管理新加坡房地产经济.docx VIP
- T_CERDS 3-2022 企业ESG评价体系.docx VIP
- 2024年公安机关人员基础知识考试题库及答案 (新版).docx
文档评论(0)