电子政务中的数据挖掘.ppt

  1. 1、本文档共129页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电子政务中的数据挖掘

数据挖掘入门 引言 KDD与数据挖掘 数据挖掘方法 数据挖掘的应用和发展趋势 数据预处理 可视化数据挖掘 一、引言 什么激发了数据挖掘 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种领域,如商务管理、生产控制、市场分析、工程设计和科学探索等。 面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,由此引发了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database)及相应的数据挖掘(Data Mining)理论和技术的研究。 为什么数据挖掘是重要的 数据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中,没有强有力的工具,这些数据就变成了“数据坟墓”——难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。 二、KDD与数据挖掘 2.1 KDD定义 人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 2.2 KDD过程 KDD是一个人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,KDD过程主要经由三个部分组成,即数据整理、数据挖掘和结果的解释评估。 知识发现(KDD)的步骤 数据准备:了解KDD应用领域的有关情况。包括熟悉相关的知识背景,搞清用户需求。 数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。 数据预处理:对步骤2中选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。 数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。 确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。 选择算法:根据步骤5确定的任务,选择合适的知识发现算法,包括选取合适的模型和参数。 数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。 模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。 知识评价:将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。 什么是数据挖掘 数据挖掘(从数据中发现知识) 从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识。 其它可选择的名字 数据库中知识挖掘、知识提取、数据/模式分析、数据考古、数据捕捞、信息获取、事务智能等。 广义观点 数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。 数据挖掘系统的组成 数据库、数据仓库或其他信息库:是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。 数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务器负责提取相关数据。 知识库:是领域知识,用于指导搜索,或评估结果模式的兴趣度。 数据挖掘引擎:数据挖掘系统的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上,可能使用兴趣度阈值过滤发现的模式。 图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档