- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
前期工作总结-赵启轩1206010325课案
基于Oracle Data Miner的工程算法效用挖掘分析前期工作总结2016.1.1-2016.1.31总体来说,毕设任务包括以下几点:1、知识学习?(1)数据库概念,数据挖掘概念;?(2)K近邻算法和神经网络算法;?(3)Oracle Data Miner组件;2、技能掌握?(1)理解数据挖掘的体系结构以及实施基本流程;?(2)理解K近邻算法和神经网络算法;?(3)熟练掌握Oracle Data Miner的使用;?(4)熟练采用Oracle Data Miner进行模型流程的创建;这段时间以来,更多地还是倾向于必要理论的学习。由于之前没有接触过数据挖掘方面的知识,所以花了很多时间去了解、理解数据挖掘的原理、体系结构、实施流程以及一些算法,还有相关的知识。关于Oracle Data Miner的使用还没有熟练掌握使用。下面总结一下已经掌握的理论准备知识。1、数据挖掘概述从技术上讲,数据采掘的方法是以关系数据库为对象,根据原始数据抽取新的数据关系。原始数据经过抽取算法的处理,产生侯选关系。这些关系经过评估,有些可作为感兴趣的发现,然后将结果提供给用户。这些发现的模式也可存储到系统的知识库中,支持以后的发现。典型的关系抽取方法存在以下四种:·依赖关系分析·分类·概念描述·偏差检测2、粗糙集理论以数据库为基础进行知识发现,会造成信息的不确定性和含糊性的困难。具体表现为:(1) 数据动态变化(2) 噪声数据的手工录入以及主观选取等操作,可能使数据库中包含错误数据,这种错误的数据便是数据的噪声。(3) 数据不完整数据库中某些个别的记录其属性域可能存在空值现象。(4) 冗余信息数据库中的某些记录有时在多处存储。冗余信息容易造成错误的知识发现。(5) 数据稀疏数据库的数据模型通常对应着很大的信息空间,由于进行知识发现时,要在这个信息空间中搜索,因此也被称为发现空间。相对于发现空间,数据库中实际包含的数据往往显得非常稀疏。3、数据挖掘的体系结构数据挖掘系统由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。数据挖掘系统的体系结构图如下:4、数据挖掘的过程模型4.1 Fayyad数据挖掘模型Fayyad数据挖掘模型将数据库中的知识发现看作是一个多阶段的处理过程,它从数据集中识别出以模式来表示的知识,在整个知识发现的过程中包括很多处理步骤,各步骤之间相互影响,反复调整,形成一种螺旋式的上升过程。这个模型也被称作阶梯处理过程模型,Fayyad处理过程共分为9个处理阶段,分别是:(1)数据准备:了解KDD相关领域的有关情况,熟悉有关的背景知识,并弄清楚用户的要求。(2)数据选择:根据用户的要求从数据库中提取与KDD相关的数据,KDD将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。(3)数据清洗和预处理:对数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。(4)数据降维/转换:对经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其它操作减少数据量。(5)根据用户的要求确定KDD的目标:确定KDD是发现何种类型的知识,因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。(6)确定知识发现算法:根据阶段5所确定的任务,选择合适的知识发现算法,这包括选取合适的模型和参数,并使得知识发现算法与整个KDD的评判标准相一致。(7)数据挖掘(Data Mining) :运用选定的知识发现算法,从数据中提取出用户所感兴趣的知识,并以一定的方式表示出来。(8)模式解释:对发现的模式(知识)进行解释,在此过程中,为了取得更为有效的知识。(9)知识评价:将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性检查,以确信本次发现的知识不与以前发现的知识相抵触。Fayyad数据挖掘过程模型图如下:Fayyad过程模型是一个偏技术的模型,该模型在实际应用中存在以下两个问题:(1)为什么选择这些数据?Fayyad过程模型忽略了具体业务问题的确定。这也是确定选择哪些数据的关键所在。(2)模型怎样使用?数据挖掘是分析型环境中的一门技术,如果数据挖掘是一种数据分析技术,那么数据挖掘应该在分析型环境中使用。但是,挖掘出的模型需要返回到操作型环境中进行应用。因此,需要构成一个从操作型环境到分析型环境再到操作型环境的封闭的信息流。4.2CRISP-DM模型CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用,解决了Fayyad模型存在的两个问题。CRIS
文档评论(0)