- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘七步走
写写我对数据挖掘过程的体会吧!
Step1.商业理解
???? 就是商业问题的理解了,那么如何更好的理解“老大”提出的商业问题困惑呢?我觉得思维导图倒是个不错的选择,当然自己要想更好的理解“老大”的意思还需要进一步的沟通,商业问题的理解关系到这个挖掘项目的价值,甚至成败,所以在这块大家要显得“外向”一些,多交流、多沟通、多了解这个商业问题背后的东东;
step2.字段提取
?? ? ?接下来就是需要提取的字段,也就是数据挖掘的宽表,这点就要和企业的DBA人员多多交流,看数据库中各个维度的表格都有什么字段,主要关联的主键有那些,那么如何选取字段呢?这就需要自己把自己与“老大”共同讨论的思维导图拿出来看看,这样就有提取那些字段的感觉了,这部分大多数的提取是自己对商业问题的感觉或者一些前辈的经验;
Step3.数据的ETL
?? ???数据的ETL,这部分一般的时间占数据挖掘项目的70%左右,为什么数据的ETL如此重要呢?万丈高楼平地起,如果连地基都是“豆腐渣工程”的话,那么再华丽的楼房也没人愿意掏腰包;嘿嘿,开个玩笑;数据的ETL主要是一些异常值、空值(miss值)、错误数值的处理,这部分一般需要根据数据自身的分布、简单的统计知识、该字段体现的业务特点、自己的经验进行的,也就是这一部分的处理主要是统计知识+项目经验+业务特点;
Step4.变量选择
?? ?? 建立模型所需要的变量如何选?当然目标变量(Y)一般都是事前设定好的,那么X如何找呢?大多数都是应用相关分析、特征选择、描述性的统计图表(分箱图、散点图等),这里我只想说一句算法是死的,有时候我们根据算法得出来的X对Y没有影响,但在实际的业务中影响却很大,所以大家不要过于依赖算法、工具,我曾经因为这点,被人批了,555~~~~~
Step5.数据挖掘建模
????? 建立数据挖掘模型,这块是许多同行相当痴迷的地方,我也不例外,记得大学毕业去北京的时候,就在咨询公司研究算法什么的,后来经过leader的几次谈话,自己才慢慢走出了误区;一句话,我们追求的是模型带来的效益,所以没那么多时间去玩模型、搞算法;但是作为数据挖掘从业者,最基本的应该是了解各种算法的原理,还有一些数据挖掘模型参数的意义,比如在spss clementine中就有自定义和专家两个供大家选择,所以掌握一些参数的意义也是有必要的,大家可以上网下一些人大数据挖掘的视频教程,里面讲的比较详细;
Step6.模型评估
???????模型评估,大部分都是借助数据挖掘自带的评估模型来做,什么准确度、收益率等,理论上很完美,实际中就一定有疗效吗?非也!有时候模型跑出来的信息很诡异的,建模人员都无法知道这个结果如何去解读,这时我倒是觉得可以从模型中选取一部分人群来做一下简单的调研,或许能获得更多数据背后的东西,也能为自己的片子多几分数据解读的色彩,何乐而不为呢?
?Step7.模型可视化展示
??? ??模型可视化展示,可视化一直是一些数据服务公司所追求的东东,也是我们从业人员一种传达信息的方式,对于一个专题的数据挖掘模型,我相信大家都能通过一些图表、表格或者更炫的PPT搞定,打个岔,我常常遇到这样的问题,在对多维度做交叉分析时,因为涉及许多数据维度的钻取而很难展现给决策者,这时可以用水晶易表来做动态的展示,但是遇到更复杂的逻辑呢?大家不难发现现在大部分的数据分析系统或者叫运营体系的分析维度都是作为一个content展现给使用者,从数据从业者的角度来看,这只是从不同维度对数据进行了切割而已,谈不上真正的数据可视化,路漫漫兮修远兮!业务、维度、用户交互三者融合才是王道;?
您可能关注的文档
- protel99se经典高校教程第三章.ppt
- 行政考核表(行政专员).doc
- 用Maven来管理我们的项目.doc
- 不花钱的养生.doc
- 交通运输专业汽车修理实习教学大纲.doc
- 语言学及应用语言学学科目标规划书.doc
- PIC单片机C语言程序设计.doc
- 关于参加╲〞中石化长炼第三届消防气防技能比武╲〞方案.doc
- 中西方文化比较系列.ppt
- XX项目渠道拓展计划 副本.doc
- 6.1.2 几分之几 课件 2025-2026学年三年级上册数学人教版.pptx
- Unit 7 When Tomorrow Comes Section A (1a-1d) 课件 2025-2026学年人教版八年级英语上册.pptx
- Unit 5 There is a big bed-B Let's try&let's talk 课件 2024-2025学年人教PEP版英语五年级上册.pptx
- 第五单元 7~9的表内乘、除法 整理和复习 课件 2025-2026学年二年级上册数学人教版.pptx
- 10.2 捍卫国家利益-课件 2025-2026学年统编版道德与法治八年级上册.pptx
- 11.1 探问人生目标 课件-2025-2026学年统编版道德与法治七年级上册.pptx
- Unit 6 A Day in the Life Section A 1a-1d 课件 2025-2026学年人教版七年级英语上册.pptx
- 6.19 抗日战争的胜利 课件 2025-2026学年统编版八年级历史上册.pptx
- 10.1 国家利益高于一切 课件-2025-2026学年统编版道德与法治八年级上册.pptx
- 4.5 函数的应用(二) 课件-2025-2026学年高一上学期数学人教A版必修第一册.pptx
最近下载
- 分子技术的临床应用题库及答案-2025年华医网继续教育.docx VIP
- 采矿工程毕业设计(论文)-平顶山矿1.2Mta新井设计(全套图纸).doc VIP
- Zebra斑马ZQ630 用户手册.pdf
- 2025年高中语文复习讲义选择性必修下册(一) 单篇梳理2 项脊轩志.docx VIP
- 风电机组叶片防雷相似性对比研究.pptx VIP
- 2026年中国长城资产管理股份有限公司校园招聘笔试模拟试题及答案解析.docx VIP
- 国开2024年秋《经济法学》计分作业1-4答案形考任务.docx
- 2014年q12 impact提升计划管理表(结构).xls VIP
- 党政办公室工作人员业务培训教学演示课件.ppt VIP
- 山梨酸钾MSDS化学物质技术说明书.pdf VIP
原创力文档


文档评论(0)