第5节数据挖掘.pptVIP

下载本文档

1
0
约5.06千字
约 33页
2019-05-25 发布于湖北
举报
版权申诉

第5节数据挖掘.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1、粗糙集理论粗糙集合和普通集合的概念有本质的区别，粗糙集中的成员关系、集合的等价关系都与集合的不可区分关系表达的论域知识有关，一个元素是否属于一个集合不时有其客观性决定的，而是取决于人们的知识。所以粗糙集的特性都不是绝对的，与我们对事物的了解程度有关。从某种意义上来讲，粗糙集方法可以被看作对经典集合理论的拓展。 2、粗糙集方法特点粗糙集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗糙集处理的对象是类似二维关系表的信息表。但粗糙集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗糙集理论实用化的难点。 5.4.6 判别分析当所遭遇问题它的因变量为定性，而自变量（预测变量）为定量时，判别分析为一非常适当的技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体—判别分析；若由多个群体构成，则称之为多元判别分析。 1、判别分析的基本思想有时我们会遇到包含属性被解释变量和几个度量解释变量的问题，这时需选择合适的分析方法。而当被解释变量是属性变量而解释变量是度量变量时，判别分析是合适的统计分析方法。? 判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。在现实世界中，经常会遇到需要判别的问题。 2、判别分析的分类判别分析按判别的组数来分，有两组判别分析和多组判别分析；? ? 按区分不同总体所用的数学模型来分，有线性判别和非线性判别；?按判别对所处理的变量方法不同，有逐步判别、序贯判别等； ? 按判别准则不同，有距离判别、贝叶斯判别（Bayes）、费歇（Fisher）判别等。? 谢谢！ * * * * * 第5章数据挖掘本章内容 5.1 大数据挖掘概念 5.2 大数据挖掘概念 5.3 数据挖掘流程数据挖掘的常用方法实验5 数据挖掘 5.1.1 数据挖掘的起源从我们的观点来看，大部分数据挖掘问题和相应的解决方法都起源于传统的数据分析。数据挖掘起源于多种学科，其中最重要的两门是统计学和机器学习，统计学起源于数学，因此，它强调数学上的精确。在实践测试之前，在理论基础上建立一些东西的要求是明智的，相比之下，机器学习更多地起源于计算机实践。这就导致了实践的倾向，自觉地对一些东西进行检验来查看它表现的好坏，而不是去等待有效性的正式证据。 5.1 大数据挖掘概念 5.1.2 数据挖掘的定义数据挖掘（Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。 5.2.1 数据总结数据总结目的是对数据进行浓缩，给出它的总体综合描述。通过对数据的总结，数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上，从而实现对原始基本数据的总体把握。最简单的数据总结方法是利用统计学中的传统方法，计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具，对数据制作直方图、饼状图等。利用OLAP(On Line Processing)技术（即联机分析处理技术）实现数据的多维查询也是一种广泛使用的数据总结的方法。 5.2 数据挖掘任务 5.2.2 分类分类的主要功能是使用一个分类函数或分类模型（也常常称作分类器），该模型能够根据数据的属性将数据分派到不同的组中。即：分析数据的各种属性，并找出数据的属性模型，确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据，并预测新数据将属于哪一个组。分类应用的实例很多。例如，我们可以将银行网点分为好、一般和较差三种类型，并依此分析这三种类型银行网点的各种属性，特别是位置、盈利情况等属性，并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析，以便决定预期银行网点属于哪一种类型。 5.2.3 关系分析关联分析的目的是找出数据库中隐藏的关联网，描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数，即便知道也是不确定的，因此关联分析生成的规则带有置信度，置信度级别度量了关联规则的强度。 5.2.4 聚类当要分析的数据缺乏描述信息，或者是无法组织成任何分