第六章数据挖掘技术-Read.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章数据挖掘技术-Read.doc

PAGE PAGE 16 第 六 章 数 据 挖 掘 技 术 数据挖掘(Data Mining)和数据仓库作为决策支持新技术在近十年来得到了迅速的发展。数据仓库的发展为数据挖掘技术开辟了新的战场,同时也提出了新的要求和挑战。 在过去的数十年中,我们产生和收集数据的能力已经迅速提高,许多商务、科学和行政事务的计算机化,特别是万维网的流行,已经将我们淹没在数据和信息的汪洋大海中,存贮数据的爆炸性增长已激发对新技术和自动工具的需求,以便帮助我们将海量数据转换成信息和知识。 数据挖掘就是按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的未知的或验证已知的商业规律,且进一步将其模式化的数据处理方法,它的最大特点是能够建立预测模型,预测未来的情况。 本章主要介绍数据挖掘的基本概念,发展现状.任务.分类以及数据挖掘的方法和技术。重点介绍数据挖掘的关联分析,聚类分析等相关方法和算法。 6.1 数 据 挖 掘 概 念 一.什么是数据挖掘?(Data Mining DM) 简单的说,数据挖掘是从大量的数据中提取或“挖掘“知识。数据挖掘应该更正确地命名为”从数据中挖掘知识“。 挖掘是一个很生动的术语,它抓住了从大量的未加工的材料中发现少量金块这一过程的特点。 数据挖掘的定义: 数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数据分析。 二.知识发现和数据挖掘 对于数据挖掘(DM)和知识发现(KDD,Knowledge Discovery in Database)的确切定义一直在许多学者中有混淆,有的认为,DM和KDD是等价的概念。人工智能领域习惯称知识发现,而数据库领域习惯称DM,也有的把KDD当作发现知识的完整过程,而DM只是这个过程的一部分。 1995年,在加拿大召开了第一届KDD和DM国际学术会议。会议对KDD做了确切的定义,未对DM做确切定义。 知识发现的确切字面定义: Knowledge discovery in database is the non-trivial process of identifying valid, novel,potential useful,and ultimately understandable pattern in data.(Frawley ,Piatetsky-Shapiro) 数据库发现是一个在数据中识别新颖有效模式的重复过程。这些模式具有潜在的可用性,并且最终可以被理解。 Meta Group 对DM的定义: Data Mining is the application of artificial intelligence (AI) techniques (Neural network,fuzzy Logic,genetetic algorithma, etc) to large quantities of data, to discovery hidden trends,patterns ,and relationships 数据挖掘是将人工智能技术(神经网络,模糊逻辑,遗传算法等)应用到大规模数据,以发现隐含的趋势.模式和关系。 数据挖掘作为知识发现的一个特定步骤,它是一系列技术及应用,或者说是对大容量数据及数据间关系进行考察和建模的方法集,它的目标是将大容量数据转换为有用的知识和信息。 三.知识发现过程 知识发现的过程可以分为三个主要阶段:数据准备,数据挖掘和结果表达和理解。如图6-1所示: 预处理后数据 数据准备 预处理后数据 数据挖掘 结果表达和解释 结果表达和 转换 数据挖掘 知识 数据转换 模式 转换数据 数据预处理 数据选择 目标数据 数据集成 数据 数据源 图 6-1 知识发现过程 数据准备 数据集成 将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等。 数据选择 为知识发现的目标搜索和选择有关的数据,这包括不同模式数据的转换和数据的统一和汇总。 数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。 数据预处理 对数据进行清理和充实等预处理工作。 数据转换 对数据编码,数据库中字段的不同取值转换成数码形式将有利于搜索。 数据挖掘。 此阶段进行实际的挖掘操作,利用机器学习.统计分析等方法,从数据库 中发现有用的模式或知识。

文档评论(0)

shiyouguizi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档