跨行业数据挖掘标准流程(CRISP-DM).pdf

跨行业数据挖掘标准流程(CRISP-DM).pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
跨⾏业数据挖掘标准流程 (CRISP-DM) CRISP-DM概念 CRISP-DM代表跨⾏业的数据挖掘过程,CRISP-DM 模型 KDD模型的⼀种。CRISP-DM⽅法论提供了计划数据挖掘项 ⽬的结构化⽅法。 这 ⼀种可靠且经过验证的⽅法。CRISP提供了⼀种开放的、可⾃由使⽤的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求 解策略。它把这个过程定义为六个标准阶段,分别 商业理解、数据理解、数据准备、建⽴模型、模型评估和模型发布,以下分别加以简 介 : 第⼀阶段–确定业务 ⽬标 CRISP-DM流程的第⼀步 从业务⾓度了解您要完成的⼯作。您的组织可能有相互竞争的⽬标和约束,必须适当地加以平衡。该过程的此阶 段的⽬标 发现可能影响项 ⽬结果的重要因素。忽略此步骤可能意味着需要付出⼤量努⼒才能为错误的问题提供正确的答案。 该项 ⽬的期望输出 什么? 1. 设定⽬标 -这意味着从业务⾓度描述您的主要⽬标。您可能还要解决其他相关问题。例如,您的主要⽬标可能 通过预测当前 客户何时会转移到竞争对⼿来保留他们。相关的业务问题可能 “使⽤的渠道会影响客户留下还 留下?” 或 “较低的ATM费 ⽤会⼤⼤减少离职的⾼价值客户的数量吗?” 2. 制定项 ⽬计划 -在这⾥您将描述实现数据挖掘和业务 ⽬标的计划。计划应指定在项 ⽬其余部分中要执⾏的步骤,包括最初选择 的⼯具和技术。 3. 业务成功标准 -在这⾥,您将列出⽤于从业务⾓度确定项 ⽬ 否成功的标准。理想情况下,这些参数应该 特定且可测量的, 例如将客户流失率降低到⼀定⽔平,但 有时可能需要具有更主观的标准,例如 “对关系有帮助的洞察⼒”。如果 这种情 况,则需要弄清楚 谁做出主观判断。 评估当前情况 这涉及到在确定数据分析 ⽬标和项 ⽬计划时需要考虑的所有资源,约束,假设和其他因素的更详细的事实调查。 1. 资源清单 -列出项 ⽬可⽤的资源,包括 : 1. ⼈员 (业务专家,数据专家,技术⽀持,数据挖掘专家) 2. 数据 (固定摘录,对实时数据,仓库数据或操作数据的访问) 3. 计算资源 (硬件平台) 4. 软件 (数据挖掘⼯具,其他相关软件) 2. 需求,假设和约束 -列出项 ⽬的所有需求,包括完成进度表,所需的结果可理解性和质量,任何数据安全问题以及任何法律问 题。确保允许您使⽤数据。列出项 ⽬所做的假设。这些可能 关于可以在数据挖掘期间验证的数据的假设,但也可能包括关于 与项 ⽬相关的业务的不可验证的假设。如果要列出后者会影响结果的有效性,则特别重要。列出对项 ⽬的约束。这些可能 对 资源可⽤性的约束,但也可能包括技术约束,例如实际⽤于建模的数据集的⼤⼩。 3. 风险和或有事项 -列出可能延迟项 ⽬或导致项 ⽬失败的风险或事件。列出相应的应急计划-如果发⽣这些风险或事件,您将采取 什么⾏动? 4. 术语 -编译与项 ⽬相关的术语表。这通常包含两个部分 : 1. 相关业务术语的词汇表,构成该项 ⽬可⽤的业务理解的⼀部分。构建此词汇表 ⼀个有⽤的 “知识启发”和教育活 动。 2. 数据挖掘术语表,并举例说明与所讨论的业务问题有关的⽰例。 5. 成本和收益 -构建项 ⽬的成本效益分析,将项 ⽬成本与成功后对企业的潜在收益进⾏⽐较。这种⽐较应尽可能具体。例如,您应 该在商业情况下使⽤财务指标。 确定数据挖掘 ⽬标 业务 ⽬标说明了业务术语中的⽬标。数据挖掘 ⽬标以技术术语陈述了项 ⽬⽬标。例如,业务 ⽬标可能 “增加对现有客户的⽬录销售”。数 据挖掘的⽬标可能 “根据客户在过去三年中的购买情况,⼈⼝统计信息 (年龄,⼯资,城市等)以及商品价格,来预测该客户将购买多少 个⼩部件。” 1. 业务成功标准 -描述能够实现业务 ⽬标的项 ⽬预期输出。 2. 数据挖掘成功标准 -以技术术语定义项 ⽬成功结果的

文档评论(0)

有志者事竟成 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7114163151000053

1亿VIP精品文档

相关文档