- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 据挖掘的体系结构与模型
数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓 松 李文敬 刘海涛 编著 电子工业出版社 3.1 数据挖掘的体系结构 数据挖掘系统由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。 3.1 数据挖掘的体系结构 数据库管理模块,负责对系统内数据库、数据仓库、挖掘知识库的维护与管理。这些数据库、数据仓库是对外部数据库进行转换、清理、净化得到,它是数据挖掘的基础。 挖掘前处理模块,对所收集到的数据进行清理、集成、选择、转换,生成数据仓库或数据挖掘库。其中:清理,主要清除噪音;集成,将多种数据源组合在一起;选择,选择与问题相关的数据;转换,将选择数据转换成可挖掘形式。 3.1 数据挖掘的体系结构 模式评估模块,对数据挖掘结果进行评估。由于所挖掘出的模式可能有许多,需要将用户的兴趣度与这些模式进行分析对比,评估模式价值,分析不足原因,如果挖掘出的模式与用户兴趣度相差大,需返回相应的过程(如,挖掘前处理或挖掘操作)重新执行。 知识输出模块,完成对数据挖掘出的模式进行翻译、解释,以人们易于理解的方式提供给真正渴望知识的决策者使用。 3.1 数据挖掘的体系结构 挖掘操作模块,利用各种数据挖掘算法针对数据库、数据仓库、数据挖掘库,并借助挖掘知识库中的规则、方法、经验和事实数据等,挖掘和发现知识。。 3.2 数据挖掘的过程模型 Fayyad数据挖掘模型将数据库中的知识发现看作是一个多阶段的处理过程,它从数据集中识别出以模式来表示的知识,在整个知识发现的过程中包括很多处理步骤,各步骤之间相互影响,反复调整,形成一种螺旋式的上升过程。 3.2.1 Fayyad模型 Fayyad处理过程共分为9个处理阶段,分别是 : 数据准备:了解KDD相关领域的有关情况,熟悉有关的背景知识,并弄清楚用户的要求。 数据选择:根据用户的要求从数据库中提取与KDD相关的数据,KDD将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。 3.2.1 Fayyad模型 数据清洗和预处理:对数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。 数据降维/转换:对经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其它操作减少数据量。 确定KDD的目标 根据用户的要求:确定KDD是发现何种类型的知识,因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。 3.2.1 Fayyad模型 确定知识发现算法: 根据阶段5所确定的任务,选择合适的知识发现算法,这包括选取合适的模型和参数,并使得知识发现算法与整个KDD的评判标准相一致。 数据挖掘(Data Mining) :运用选定的知识发现算法,从数据中提取出用户所感兴趣的知识,并以一定的方式表示出来。 模式解释: 对发现的模式(知识)进行解释,在此过程中,为了取得更为有效的知识。 3.2.1 Fayyad模型 知识评价: 将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性检查,以确信本次发现的知识不与以前发现的知识相抵触。 3.2.1 Fayyad模型 Fayyad过程模型是一个偏技术的模型,该模型在实际应用中存在以下两个问题: 为什么选择这些数据?Fayyad过程模型忽略了具体业务问题的确定。这也是确定选择哪些数据的关键所在。 模型怎样使用?数据挖掘是分析型环境中的一门技术,如果数据挖掘是一种数据分析技术,那么数据挖掘应该在分析型环境中使用。但是,挖掘出的模型需要返回到操作型环境中进行应用。因此,需要构成一个从操作型环境到分析型环境再到操作型环境的封闭的信息流。 3.2.2 CRISP-DM模型 CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用,解决了Fayyad模型存在的两个问题。 CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。 3.2.2 CRISP-DM模型 CRISP-DM模型过程的基本步骤包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施
您可能关注的文档
- 移动201年工作总结和2014年总体设想.doc
- 移民中学高新课改工作总结.doc
- 科技文化节结.doc
- 移动互联导项目总结报告.doc
- 程序设计基实践报告.doc
- 科技馆实践告.doc
- 程序框图与法的逻辑结构.ppt
- 税务专题():股权转让避税要点总结.docx
- 程溪镇下庄学教育教学常规检查汇总.doc
- 程控器工厂备10月份月度总结.ppt
- 中国国家标准 GB/T 5211.9-2025颜料和体质颜料通用试验方法 第9部分:相同类型着色颜料耐光性的比较.pdf
- 《GB/T 5211.9-2025颜料和体质颜料通用试验方法 第9部分:相同类型着色颜料耐光性的比较》.pdf
- 《GB/T 37228-2025安全与韧性 应急管理 突发事件管理指南》.pdf
- GB/T 23724.3-2025起重机 检查 第3部分:塔式起重机.pdf
- 中国国家标准 GB/T 25163-2025防止儿童开启包装 可重新盖紧包装的要求与试验方法.pdf
- 《GB/T 25163-2025防止儿童开启包装 可重新盖紧包装的要求与试验方法》.pdf
- GB/T 16263.5-2025信息技术 ASN.1编码规则 第5部分:W3C XML模式定义到ASN.1的映射.pdf
- 中国国家标准 GB/T 16263.5-2025信息技术 ASN.1编码规则 第5部分:W3C XML模式定义到ASN.1的映射.pdf
- 《GB/T 16263.5-2025信息技术 ASN.1编码规则 第5部分:W3C XML模式定义到ASN.1的映射》.pdf
- GB/T 11349.2-2025机械振动与冲击 机械导纳的试验确定 第2部分:用激振器作单点平动激励测量.pdf
最近下载
- “红旗杯”竞赛总题库-4班组长计划管理能力考试题库(附答案).docx VIP
- 物业管理实务练习题物业的承接查验(三).pdf VIP
- 食品配送行业货物运输质量保障措施.docx VIP
- 2025入党积极分子发展对象培训考试试卷题库(含答案).docx VIP
- 地下室金刚砂地坪施工方案.docx VIP
- 2025年公安局警务辅助人员招聘考试笔试试题(附答案).docx VIP
- “红旗杯”竞赛总题库-2班组长成本绩效管理能力考试题库(附答案).docx VIP
- 轨道交通收益权质押价值评估研究--以xx市地铁x号线为例.pdf VIP
- 5. 国威人工智能产业学院建设方案V1.5.pdf VIP
- 中国AIGC应用全景图谱报告.pptx VIP
文档评论(0)