数据挖掘原理与算法教案.pdfVIP

下载本文档

96
0
约5.5万字
约 41页
2021-01-05 发布于未知
举报
版权申诉

数据挖掘原理与算法教案.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘原理与算法教案讲授：王志明 w3z2m1@163.com 湖南农业大学理学院信息科学系第一章绪论教学目的：掌握数据挖掘的概念，背景，基本理论，基本应用，发展趋势教学重点难点：数据挖掘的概念，粗糙集方法教学课时：2 教学过程：一、概念数据挖掘(Data mining)属一交叉学科，融合了数据库技术(Database)，人工智能(Artificial Intelligence)，机器学习(Machine Learning)，统计学 (Statistics)，知识工程(Knowledge Engineering),面向对象方法(Object-Oriented Method) ，信息检索(Information Retrieval)，高性能计算(High-Performance Computing) 以及数据可视化（Data Visualization ）等技术。联机事物处理（On Line Transaction Processing ，OLTP ）是在网络环境下的事务处理工作，以快速的响应和频繁的数据修改为特征，使用户利用数据库能够快速地处理具体的业务。知识：广义讲就是数据、信息的表现形式。人们常把概念、规则、模式、规律和约束等看成知识。数据挖掘：又称数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单的说就是从大量数据中提取或挖掘知识。数据仓库是面向主题的、集成的、稳定的，不同时间的数据集合，用于支持经营管理中决策制定过程。二、数据挖掘产生与发展 1）查询、统计、报表等简单传统的数据处理无法获取知识。这样促使数据挖掘技术的发展。利用数据仓库存储数据。 2 ）数据挖掘技术产生的技术背景：（1）数据库、数据仓库、Internet 等信息技术的发展；(2)计算机性能的提升；(3)统计学和人工智能等数据分析方法的应用。 3 ）数据挖掘技术发展应用以及重点需要的研究的方面：（1）商业中的应用（2 ）与特定数据存储类型的适应问题（3 ）大型数据的选择与规格化问题（4 ）数据挖掘系统的构架与交互式挖掘技术（5 ）数据挖掘语言与系统的可视化问题（6 ）数据挖掘理论与算法研究三、数据挖掘的分类见书 P11 四、广义知识挖掘 1 、概念描述，包括特征性描述和区别性描述 2 、多维数据分析，如求和，计数，平均，最大值等 3 、多层次概念描述（1）模式分层；（2 ）集合分组分层；（3 ）操作导出层；（4 ）基于规则分层五、类知识挖掘 1、分类：决策树、贝叶斯分类、神经网络、遗传算法与进化理论、类比学习、粗糙集、模糊集等 2 、聚类：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法六、预测型知识挖掘 1、趋势预测分析 2 、周期分析模式 3、序列模式 4 、神经网络七、粗糙集方法粗糙集（Rough Set ）是波兰数学家Z.Pawlak 于 1982 年提出的。粗糙集以等价关系（不可分辨关系）为基础，用于分类问题。它用上、下近似（upper approximation, lower approximation ）两个集合来逼近任意一个集合，该集合的边界线区域被定义为上近似集和下近似集之差集。 1、等价粗糙集把客观世界抽象为一个信息系统，一个信息系统是一四元组 S=(U，A ，V ，f )的定义为: U:是一个非空有限对象(元组)集合, U={x1 x2 …xn},其中 xi 为对象(元组) 。 A:是对象的属性集合,A={A1,A2,…,An},A 常分为两个不相交的子集,即条件属性 C 和决策属性 D, A  C  D V:是属性值的集合， V={V1,V2,…,Vn},Vi 是 Ai 的值域。 f ：