第2章数据挖掘过程与知识发现..docVIP

下载本文档

3
0
约 7页
2016-12-10 发布于重庆
举报
版权申诉

第2章数据挖掘过程与知识发现..doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第2章数据挖掘过程与知识发现.

第二章数据挖掘过程与知识发现第一节 CRISP_DM介绍跨行业数据挖掘标准流程被行业成员广泛应用，这一模型包括以下六个阶段：一、业务理解：业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。应该是对数据挖掘的目标有一个清晰的认识，知道利润所在，其中包括数据收集、数据分析和数据报告等步骤。二、数据理解：一旦商业对象和计划书确定完备，数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。由于数据挖掘是目标导向的，不同的商业目的需要不同的数据系列。数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据，来正确描述研究问题；即对问题进行简单描述；识别问题的相关数据；所选择的变量要相互独立，变量独立意味着不涵盖重复信息。三、数据准备：确定可用的数据资源以后，需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行，新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。数据预先处理： 1、噪声问题和缺失问题 a)数据重复 b)数值错误 c)数据缺失 2、数据的变换 a)数据类型的变换 b)数据的平滑 c)数据的概化 d)数据的规范化十进制缩放：将某个数据全部除以10的相同的幂通过极值来转化：新数据=（原数据-最小数值）/（最大数值-最小数值）通过均值和标准差来转化：新数据=（原数据-均值）/标准差通过对数来转化：对每个数据经过自然对数进行数据转换，例如下面的转换可以把数据转换到0-1之间： O=1/(1+exp(-x)) 四、建立模型：数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同，应用各种不同的模型，如果任务是对数据分组，则运用判别分析；如果任务是估计，在连续数据类型的情况下，回归分析就可以运用，对于不连续的数据则可以运用逻辑回归分析，神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具，在以后的章节中将要进行介绍。数据处理：数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。通过对数据进行分割，一部分成为训练集，另外一部分成为测试集。一部分进行模型开发，另外一部分成为模型检验的部分。数据挖掘就是：数据挖掘可以通过关联、分类、聚类、序列模式、类似时间序列等方法来实现。五、模型评估：数据解释阶段是至关重要的，要对建立的模型是否能够达到问题解决的目的进行研究，即包括模型是否能够达到研究的目标；模型是否能够用合适的方法显示。评估办法：一般来说，研究中把大规模数据集合分为两个部分：训练集和测试集，分类误差通常运用错差矩阵（干扰矩阵）表现出来，它可以表示出正确分类的案例数目，以及分到不正确类别的案例数。错差矩阵中所揭示的两类错误的损害有时候不是一样的，例如，银行贷款给一个希望偿还但是没有能力偿还的，比起没有把款项贷给实际会偿还的客户更加令人痛苦。运用成本分析方法可以比较不同的预测判别方法的成本，运用错差矩阵来度量，并且计算成本函数，例如：表1：错差矩阵：误分类成本相等电话帐单模型中不能够偿付模型中可以偿付实际不能够偿付 50 14 64 实际能够偿付 76 578 654 126 592 718 总分类正确率等于可用正确分类数量（50+578=628）除以总案例（718）数量而得到，于是，案例中有87.5%的数据得到了正确的分类。这里的成本函数： 190×关闭良好帐户+10×保留帐户= 190×76+10×14=14580美元实际上，把好的当作不好的比例相当高，是实践中难以接受的。如果充分运用先验概率对此进行研究，则可以得到如下矩阵：表2：错差矩阵：误分类成本不相等电话帐单模型中不能够偿付模型中可以偿付实际不能够偿付 36 28 64 实际能够偿付 22 632 654 58 660 718 案例中93%得到了正确地执行，说明方法得到了显著的改进。六、模型发布：数据挖掘既可以应用于核实先前的假设，也可以应用于知识发现（识别未预期的有用的关系）。显然，这几个步骤不是一成不变的，而是互相作用的。讨论 1.将下列客户年龄的数值转换为年轻（40岁以下）、中年（40-60）和老人（60岁以上）的类别。客户年龄（岁） Fred 46 Herman 52 George 36 Frieda 39 Hermione 28 2