数据库系统原理及应用(何玉洁)-第16章.pptVIP

下载本文档

3
0
约5.97千字
约 57页
2017-08-07 发布于湖北
举报
版权申诉

数据库系统原理及应用(何玉洁)-第16章.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据库系统原理及应用(何玉洁)-第16章

转轴操作示意图转轴 16.3 数据挖掘如何从大量的数据中及时有效地提取有用的信息，是所有经营管理者所面临的一个共同的难题。为了解决这一难题，有关人员逐步研究开发了一系列的技术和方法，即数据库知识发现和数据库挖掘技术，其目标就是要智能化和自动化地把数据转换为有用的信息和知识。数据库中的知识发现是识别数据库中以前未知的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程，而数据挖掘是数据库知识发现过程的一个步骤。数据挖掘过程 1．数据准备数据选择：搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。数据预处理：研究数据的质量，为进一步的数据分析作准备，并确定将要进行的挖掘操作的类型。数据转换：将数据转换成一个分析模型，这个分析模型是针对数据挖掘算法建立的。其他过程 2.数据挖掘对所得到的经过转换的数据进行挖掘，除了选择合适的挖掘算法外，其余一切工作都能自动地完成。 3．结果分析解释并评估结果。其使用的分析方法一般应视数据挖掘操作而定，通常会用到可视化技术。 4．知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。 16.3.2 数据挖掘知识发现数据挖掘和知识发现的研究的三根技术支柱：数据库人工智能数理统计目前DMKD(数据挖掘与知识发现)的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。数据挖掘知识的分类广义知识关联知识分类知识预测型知识偏差型知识广义知识广义知识（Generalization）是指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识，反映同类事物共同性质，是对数据的概括、精炼和抽象。关联知识关联知识（Association）是反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。关联规则的发现可分为两步。第一步是迭代识别所有的频繁项目集，要求频繁项目集的支持率不低于用户设定的最低值；第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。分类知识分类知识（Classification ＆ Clustering）是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树，是一种有指导的学习方法。预测型知识预测型知识（Prediction）是根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。目前，时间序列预测方法有经典的统计方法、神经网络和机器学习等。偏差型知识偏差型知识（Deviation）是对差异和极端特例的描述，揭示事物偏离常规的异常现象，如标准类外的特例，数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现，并随着概念层次的提升，从微观到中观、到宏观，以满足不同用户不同层次决策的需要。 16.3.3 数据挖掘的常用技术和目标 1.常用技术人工神经网络：仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。决策树：代表决策集的树形结构。遗传算法：基于进化理论，并采用遗传结合、遗传变异以及自然选择等设计方法的优化技术。近邻算法：将数据集合中每一个记录进行分类的方法。规则推导：从统计意义上对数据中的“IF-Then”规则进行寻找和推导。目标数据挖掘用于实现特定的目标，这些目标可以分为以下几个主要类别：预测：数据挖掘预测数据特定属性的未来行为。如基于对顾客购买行为的分析，什么市场和销售策略能产生更多利润等。识别：数据挖掘可以基于数据模型识别一个事件、项目或活动的存在。如识别一个人或一组人访问数据库某一部分的权限，基于DNA序列中的某个特征序列识别基因的存在，等等。目标（续）分类：数据挖掘可以划分数据，从而根据参数组合识别不同的分类和类别。如超级市场的顾客可以被分类为：寻找折扣的顾客，忠诚并且常来的顾客，只买特定品牌商品的顾客，不经常来的顾客，等等。优化：数据挖掘可以优化对有限资源的使用，如时间、空间、资金或材料，在给定的约束条件内最大化产出值，如销售量或利润。 16.3.4 数据挖掘工具有各种不同类型的数据挖掘工具和方法来实现知识提取。多数数据挖掘工具使用ODBC。多数工具可在Microsoft的Windows环境中运行，一些工具还可在UNIX操作系统下运行。工具（续）挖