- 0
- 0
- 约9.09千字
- 约 41页
- 2017-06-03 发布于北京
- 举报
第6章现代数据挖掘技术与发展 本章学习目标: (1) 通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构 。 (2) 通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。 (3) 通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。 (4) 经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。 现代数据挖掘技术与发展 6.1知识挖掘系统的体系结构 6.2现代挖掘技术及应用 6.3知识发现工具与应用 6.4数据挖掘技术的发展 练 习 6.1知识挖掘系统的体系结构 6.1.1知识发现的定义 ·知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。 ·知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。 ·知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。 6.1.2 知识发现系统的结构 知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。 1.知识发现系统管理器 控制并管理整个知识发现过程 2.知识库和商业分析员 知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。 3.数据仓库的数据库接口 知识发现系统的数据库接口可以直接与数据仓库通信。 4.数据选择 确定从数据仓库中需要抽取的数据及数据结构 5.知识发现引擎 将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价 有助于商业分析员筛选模式,选出那些关注性的信息 7.发现描述 发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。 6.2现代挖掘技术及应用 6.2.1 规则型现代挖掘技术及应用 1.关联规则的基本概念 2.关联规则的应用目标 置信度或正确率可以定义为: ? (6.5) ? 覆盖率可以定义为 “兴趣度”为目标的关联规则 3.关联规则的算法 Apriori算法 1.找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。 2.使用第1步找到的频集产生所期望的规则。 Apriori算法的第1步采用了递归方法,算法表示为 L1={large 1-itemsets};//产生频繁1项集L1 for (k=2;Lk-1≠○;k++) do //循环产生频繁2项集L2直到某个r使Lr为空 begin Ck=apriori-gen(Lk-1);//产生k-项集的候选集 for all transactions t∈D do begin Ct=subset(Ck,t);//事务t中包含的候选集 for all candidates c∈Ct do c.count++; end Lk={c∈Ck|c.count≥minsup} end Answer=UkLk 第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3,…,Ik,k≥2,Ij∈I,那么只有包含集合{ I1,I2,I3,…,Ik}中的项的规则最多有k条。这种规则形如I1,I2,I3,…Ii-1,Ii+1…,Ik→Ii,。这些规则置信度必须大于用户给定的最小置信度。 4.关联规则的应用 前件和后件规则中的正确率和覆盖率 规划覆盖率和正确率的平衡 6.2.2 神经网络型现代挖掘技术 1.神经网络及其学习方法 神经网络的工作过程主要分两个阶段:学习阶段和工作阶段。 学习方式则有三种:有教师(监督)学习、无教师(监督)学习和强化学习。 6.2.2 神经网络型现代挖掘技术 2.基于神经网络的数据挖掘 (1)基于自组织神经网络的数据挖掘技术 一种无教师学习过程 、可以提取一组数据中的重要特征或某种内在知识 (2)模糊神经网络类型数据挖掘技术 模糊BP网络、模糊Kohonen聚类网络、模糊推理网络、模糊ART模型等 模糊BP网络中,样本的希望输出值改为样本相对各类的希望隶属度 输出表达方面实现了模糊化,而且将样本的隶属度引入了权系数的修正规则中,使权
您可能关注的文档
- 数字电子电路第1章.ppt
- 数字电视码流基础.ppt
- 数字电视(机顶盒)开机EPG换台IPTV点播广告31.ppt
- 数字艺术概论 (2).ppt
- 数字通信第九章.ppt
- 数字资源的检索原理与检索策略..ppt
- 数学三(下)教材介绍--2013.1.ppt
- 数学史课件:第六章微积分方法与函数概念的演变.ppt
- 数学八上第一章.ppt
- 数学实验课件--MATLAB简介.ppt
- 2025至2030酒店产业政府现状供需分析及市场深度研究发展前景及规划可行性分析报告.docx
- 2025-2030中国笔记本电脑和平板电脑行业市场现状供需分析及投资评估规划分析研究报告.docx
- 2025-2030中国安乃近行业运行形势及竞争策略分析研究报告.docx
- 2025至2030中国医用显示器行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030中国飞机加油行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030中国电机启动器行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030中国帮助创作工具(HAT)软件行业深度研究及发展前景投资评估分析.docx
- 2025至2030增益均衡器行业市场占有率及投资前景评估规划报告.docx
- 2025至2030红茶行业市场风险投资及运作模式与投融资报告.docx
- 2025至2030中国变频功率计行业调研及市场前景预测评估报告.docx
最近下载
- 围孕期叶酸营养管理指南.docx VIP
- 口腔黏膜液体敷料对头颈癌化放疗造成口腔黏膜炎-BIOMEDICINE.PDF VIP
- 2026精品民宿酒店管家服务标准与运营SOP(含白手套查房表/入住接待/好评引导).docx
- 实体瘤疗效评价标准(RECIST1.1).ppt VIP
- 《医疗器械网络销售监督管理办法》考核试题及答案.docx VIP
- 【 数据结构与算法(天津理工大学)】智慧树网课章节测试答案.pdf VIP
- 欧盟CE认证符合性声明范本.docx VIP
- 小红书内容生态对消费者购买决策的影响机制研究.docx VIP
- 2025年专用车辆项目规划申请报告模范.docx
- 无人机培训课件.pptx VIP
原创力文档

文档评论(0)