ch6_数据挖掘概述.ppt

下载文档 降价啦

4
0
约9.67千字
约 86页
2018-02-11 发布于江西
举报
版权申诉
保障服务

ch6_数据挖掘概述.ppt

1、本文档共86页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ch6_数据挖掘概述

第六章数据挖掘概述数据挖掘的发展数据挖掘的定义数据挖掘的过程数据挖掘的分类数据挖掘的技术与工具数据挖掘的应用数据挖掘的新热点数据预处理一、数据挖掘的发展数据挖掘技术的由来：网络技术的高度发展数据爆炸但知识贫乏支持数据挖掘的技术基础从商业数据到商业信息的进化数据挖掘所能发现的知识有如下几种：广义型知识，反映同类事物共同性质的知识；特征型知识，反映事物各方面的特征知识；差异型知识，反映不同事物之间属性差别的知识；关联型知识，反映事物之间依赖或关联的知识；预测型知识，根据历史的和当前的数据推测未来数据；偏离型知识，揭示事物偏离常规的异常现象。数据挖掘技术是一个多步骤、可能需多次反复的处理过程。主要包括以下几步:准备、数据选择、数据预处理、确定数据挖掘的目标、确定知识发现算法、数据挖掘、模式解释、知识评价。其中最重要的一个步骤是数据挖掘,它是利用某些特定的知识发现算法,在可接受的运算效率的限制下,从有效数据中发现有关的知识。整个数据挖掘就是一个不断反馈修正的过程。当用户在挖掘过程中，发现所选择的数据不合适，或使用的挖掘方法无法获得期望结果，则用户就需要重复进行挖掘过程，甚至需要从头开始。数据挖掘示例说明：一个保险公司向搞清楚为何最近一个时期转向竞争对手的客户越来越多。希望用数据挖掘来帮助发现其中的规律知识。数据挖掘过程：问题定义数据挖掘任务就是发现离开公司的客户存在的某种规律，以便从中发现哪些因素影响客户转向其它公司。数据选择与变换为完成上述挖掘任务，需要收集大量相关数据，包括有关保险单时间的数据、客户持有的保险单种类数据、有关客户的人口统计数据等。数据挖掘过程：数据挖掘实施利用分类数据挖掘方法对客户保险单按照类别进行分类挖掘分析。这样可以发现放弃保险单的客户的一些内在规律特点，进而有助于进一步分析影响客户保有率的因素。数据挖掘过程：结果解释与评估由于利用保险单的种类分析所获得的客户保有率的影响因素，总体来说，其模型解释度只有40%。结果并不令人满意。注意到一些特定地区与直接承保公司签约的客户尤其多，因此推测这是由于这些地区缺少办公机构所致，由此重新进行挖掘分析，分析结果验证了这个推测。理论上，任何数据都可以被挖掘关系数据库；数据仓库；事务数据库其它：空间数据库、时间序列数据库、多媒体数据、流数据、面向对象数据库、文本数据、万维网数据、异种数据库联系：数据仓库为数据挖掘提供了更好的、更广泛的数据源数据仓库为数据挖掘提供了新的支持平台数据仓库为更好地使用数据挖掘工具提供了方便数据挖掘为数据仓库提供了更好地决策支持数据挖掘对数据仓库的数据组织提出了更高的要求数据挖掘还为数据仓库提供了广泛的技术支持数据挖掘的任务是从数据集中发现模式，模式可以有很多种，按功能可分为两大类：预测型（Predictive）模式描述型(Descriptive)模式分类是指将数据映射到预先定义好的群组或类。因为在分析测试数据之前，类别就已经被确定了，所以分类通常被称作有指导学习。分类算法要求基于数据属性值来定义类别。分类算法通常通过观察已知所属类别的数据的特征来描述类别。分类的主要功能是学会一个分类函数或分类模型（也常常称作分类器），该模型能够根据数据的属性将数据分派到不同的组中。这样我们就可以利用该模型来分析已有数据，并预测新数据将属于哪一个组。时间序列模式通过时间序列搜索出重复发生概率较高的模式，即根据数据随时间变化的趋势预测将来的值在连续的时间流中截取一个时间窗口，窗口内的数据作为一个数据单元，让这个时间窗口在时间流上滑动，以获得建立模型所需的训练集；如，在所有购买了激光打印机的人中，半年后80%的人再购买新硒鼓，20%的人用旧硒鼓装碳粉；如，在所有购买了彩色电视机的人中，有60%的人再购买VCD产品。关联分析是指揭示数据之间相互关系的一项数据挖掘任务，而这种任务关系在数据中没有直接表示。数据库中的数据一般都存在着关联关系。例如：购买面包的顾客中有90%的人同时购买牛奶。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联是否存在精确的关联函数, 即使知道也是不确定的，因此关联分析生成的规则带有置信度，置信度级别度量了关联规则的强度。关联模型的一个典型例子是市场菜篮分析(Marketing Basket Analysis)，通过挖掘数据产生关联规则，可了解客户的行为。采用关联模型的成功典型案例是总部位于美国阿肯色州的Wal Mart零售商的“尿布与啤酒”的故事。Wal Mart拥有世界上最大的数据仓库系统，它利用数据挖掘