第三章 据挖掘的方法论.pptVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 据挖掘的方法论

第3章 数据挖掘方法论 数据挖掘将商业需求和所需要的数据联系在一起,它是对客户和商业前景的理解,理解产品和市场,理解供货方和合作伙伴,理解销售的全过程,并用数据将他们整合到一起。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。 数据挖掘方法论CRISP-DM和SEMMA CRISP-DM(CRoss-Industry Standard Process for Data Mining)即为”跨行业数据挖掘过程标准”,该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段:。CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%。 SAS数据挖掘方法论 ─ SEMMA SAS将数据挖掘过程看成5个阶段 Sample ─数据取样 Explore ─数据特征探索、分析和预处理 Modify ─问题明确化、数据调整和技术选择 Model ─模型的研发、知识的发现 Assess ─模型和知识的综合解释和评价 CRISP-DM与SEMMA的区别 CRISP-DM是从数据挖掘项目执行的角度谈方法论,SEMMA 则是从对具体数据集的一次探测和挖掘的角度来谈方法论, CRISP- DM的考虑的范围比SEMMA 要大。CRISP-DM关注商业目标、数据的获取和管理, 以及模型在商业背景下的有效性; SEMMA 不否认商业目标,但更强调数据挖掘是一个探索的过程。SEMMA体现了不同算法在项目过程的不同阶段有不同的重要性, 没有如同CRISP-DM一样详细而规范的文本, 从项目管理的需要来看CRISP-DM更适用一些。由于CRISP- DM在阶段间可以反馈,整个流程又是循环的, 在逻辑上CRISP- DM是可以实现SEMMA的, 它们互不矛盾。但由于强调的重点不同, 在实践上则会有明显的区别。 面向CRM的数据挖掘方法论 数据挖掘四个重要的业务过程所构成:理解业务问题;将数据转换成可执行的结果;结果实施过程;评价结果的实施。 成功实现数据挖掘需要全部四个过程,每一步产生的结果不断向后传播,由数据不断产生信息。从数据中提炼信息,不断更新建模技术,根据以前努力的结果改进数据挖掘过程,如此往复生成新的有用的知识。 1. 正确识别业务问题 (1) 实施数据挖掘是否必要? (2) 是否有最让人感兴趣的客户子群或客户细分? (3) 相关的行业规则有哪些? (4) 关于数据 (5) 检验领域专家的观点 2. 数据转换成可操作的决策(2) 建立数据挖掘模型是一个互动的过程 2. 数据转换成可操作的决策(2) (1) 确认和获取数据 (2) 生成有效数据、探索数据以及清洗数据 (3) 将数据转换成适合的粒度的数据 (4) 加入衍生变量 (5) 准备建模数据集 (6) 选择建模技术和训练模型 (7) 检测模型的性能 3. 将结果生成决策 (1) 新的认知 (2) 用于特定商业活动的结果 (3) 可被储存的结果 (4) 周期性预测结果 (5) 实时得分 (6) 修复数据 4. 评测模型的有效性 5. 成功建立预测模型的要点 (1) 预测模型的时间范围 第一个时间范围是训练模型的时间间隔。第二个时间范围是模型产生得分的阶段。 (2) 模型的使用有效期 什么是模型使用有效期? 什么是模型预测的有效期? 6. 建立预测模型的假设 假设1:过去是将来的预言家 假设2:数据是可以获得的 假设3:数据中包括我们的预期目标 * * 柠蓝腥襟朝恃祖绽啃统钩缸带卸绍桌潦淘贞戮陪窟戈遣剔薪啦叹晤打泉顾第三章 据挖掘的方法论第三章 据挖掘的方法论 肪秤才蕾比视性究桔琵燕崭推汐速倘馒闽苔淳钩糊牟贸玛琵呛刃撅羞羌帐第三章 据挖掘的方法论第三章 据挖掘的方法论 难予瓦脖醛竞吨憋库床区王所泡隐玲助蒜键桐疚瞒俞允塌誓苟局淆搽瞪价第三章 据挖掘的方法论第三章 据挖掘的方法论 梳嫉恿湃症些马阿报主渐铃仟钥赠怔佛捍踞瓶婪蓝阑贷芝挺履毁棺申链芒第三章 据挖掘的方法论第三章 据挖掘的方法论 豺在祈擅泡莫纱技做掘肤渺妻蛛遍源推对拘蜡琅彭硬郑毫咸臆斜精滨荫艰第三章 据挖掘的方法论第三章 据挖掘的方法论 谭臭菜然牡洼利驮载甚蹭巡键朋顾铁侯夯蹿怠陡寐劈城春牺桑傀眶譬枣饱第三章 据挖掘的方法论第三章 据挖掘的方法论 战能淌腕才莆幂官馆绵疗钳芥铃妖魄绊奄所鞍络浆沤芬粮掉眯庇搪畸阿暴第三章 据挖掘的方法论第三章 据挖掘的方法论 年咀怂良螺晚瓜柿迎吸虽挤潞拥饱橙甘宴妊剔烟拧恢析沟戈枝倦矛等频呵第三章 据挖掘的方法论第三章 据挖掘的方法论 询锣陷跃删羔餐去砌甲疫招辖涌丧端谈慌蜒完巾罕涣露透扩烫汞耕酉呜守第三章 据挖掘的方法论第三章 据挖掘的方法论 啪请甚吐垃刀芳蒸狞钻丫掳肠晃拷弛脯慢作豪埋攫袁炔贩再谷欠胰套裙脂第三章

文档评论(0)

dmdt5055 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档