- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对业务和用户的理解,是数据挖掘“皇冠上的明珠”.pdf
对业务和用户的理解 ,是数据挖掘“皇冠上的明珠”
数据挖掘有很高的专业门槛 ;然而用研、 品、运营们也不一定就会被数据科学家们“
碾压”了。
这篇文章不是数据挖掘教程 ,而是让用研、 品、运营及其它相关岗位的同学了解 :
1. 数据挖掘的特点 ;
2. 数据挖掘可以做哪些事情、有什么应用价值 ;
3. 要发挥数据的价值 ,你们应该怎么与数据挖掘岗协作 ,你们不可替代的价值在哪里。
文章有点长 ,良心出品 ,实在没时间看完全文的同学可以有选择地看
1.数据挖掘是什么
数据挖掘 (Dat a Mining ),核心是从数据集合中自动抽取隐藏的有用信息 (规则、概念、规律、模
式等 ),并运用到实际业务中。自动抽取的过程可以类比成定性研究 /数据分析中的洞
察 (insight )。两者的区别在于数据挖掘更依赖机器和算法 ,后者的洞察更依赖人脑。用更贴近生
活的例子来说 ,数据挖掘好比医生诊断病人 ,医生收集病人的各种症状之后 ,通过一定分析 ,得出
疾病诊断。但是 ,医生能根据医学知识和经验反推疾病原因 ,数据挖掘却很难反推原因 ,即解决
不了“为什么”的问题。数据挖掘涉及统计学、人工智能、机器学习、高性能计算、数据可视化等等 ,
涉及的范畴很广 ,其中还包括了一部分数据基础设施建设工作 ,比如数据的整理、存储。这些不是
本文的重点 ,有个印象即可。作为茶余饭后跟妹子们聊天的素材也是极好的。
2.数据挖掘的核心
主流观点认为 ,数据挖掘与统计分析密不可分 ,是统计技术的延伸和发展 ;实践中两者经常结合
使用 ,一般也不会刻意区分统计分析与数据挖掘。想了解“延伸和发展”什么意思 ?数据挖掘更注重
应用 ,用效果说话 ,变量/特征间的关系不是重点 ,可以是“黑箱” (注 :统计学习惯叫变量 ,数据挖
掘习惯叫特征 ,后面均用特征来指代 )。举个栗子 ,要让更多的用户变成付费用户 ,传统统计分析
侧重通过数据来了解哪些因素促成了付费 ,怎么促进付费 ;数据挖掘可以预测哪些用户将会是付费
用户 ,然后能不能做点什么 ,让他们在付费的路上走得快一点、远一点、强一点。再举个栗子 ,传
统统计分析面对图像识别效果很差 ,数据挖掘中的一些新技术能将准确率做到接近人眼的水平。无
论是数据挖掘还是传统的统计分析 ,在“目标响应概率”上达成了一致。从宏观层面来说 ,目标响应
概率是特定用户群体 ,整体上的概率或可能性 ,如35%的用户购买过XXX 、喜欢某某明星的用户
占57%。从微观层面来说 ,目标响应概率是具体到单个用户的概率 ,如通过逻辑回归算法 ,搭建一
个预测响应模型 ,预测每个用户在某时段内的流失概率。数据挖掘的一般做法是把样本划分为训练
集 (T raining Set )、验证集 (Validat io n Set )、测试集 (Test ing Set ) ,在具体实践中 ,有时候仅
划分为训练集和验证集 ;用另外时间窗口的新数据来进行测试。通常所说的建模 ,是用一部分数
据 (通常是6 %-7 % )来训练模型 ,再用另一部分数据验证效果。
3.数据挖掘好不好
(一 )传统的统计分析 ,基础是概率论 ,需要对数据分布做假设 ,数据分布符合要求才能使用某
种统计方法
对变量间的关系也要做假设 ,确定用某概率函数来描述变量间的关系 ,还要检验参数的显著性。数
据挖掘中算法会自动寻找变量间的关系 ,对于海量杂乱的数据 ,数据挖掘有优势。简而言之 ,统计
分析对数据分布有要求 ,数据挖掘对数据质量非常宽容。现在流行“大数据” ,大数据的特点是数据
海量但非结构化 (大量的杂乱的稀疏数据 ,一眼看过去密密麻麻都是 ),自然数据挖掘有优势。用
数据挖掘技术对稀疏数据进行初步处理后 ,还经常会用统计分析来做深度处理 ,所以说两者密不
可分。
(二 )数据挖掘在预测时重点关注预测结果 ,变量间的关系可以是“黑箱”
这虽然能解决问题 ,但不利于解释业务 ,有些情况下必须选用“退而求其次”的方法 ,把黑箱里面的
情况搞清楚。比如为防范信用卡盗刷而建的风控模型 ,会用决策树做 ,便于向用户/骗子解释因为什
么情况被拦截。大家不要低估骗子的心理素质 ,如果说不出个所以然 ,嘿嘿 ,你跟骗子耗不起这个
纠缠的时间。所以 ,实际业务中 ,没有最牛的算法 ,只有最适合的算法。
(三 )传统做统计分析时 ,分析人员会先做假设和判断 ,再通过数据验证假设是否成立
人脑在建立假设时起了不可替代的作用。而算法自动寻找数据规律时 ,可能会过拟合 ,造成模型不
稳定 ,后续的应用效果比较差。下面用三张图来说明过拟合 (图片来自网络学习资料
您可能关注的文档
最近下载
- 湿热灭菌验证方案及报告.doc VIP
- TZS 0680—2025《医疗机构实验室生物安全管理组织架构规范》(水印版).pdf VIP
- 网络游戏对青少年情绪调节和自我效能感的作用.docx VIP
- YBT4001.1-2019 钢格栅板及配套件 第1部分:钢格栅板.pdf VIP
- 大数据技术与应用 课件 第二章 大数据采集.pptx
- LAQ-E-KS-23 掘进工安全作业指导书.doc VIP
- 连云港市主要小麦品种产量与主要品质性状的初步研 究参考.pdf VIP
- DB32_T 3697-2019既有建筑幕墙可靠性检验评估技术规程.docx VIP
- PW2330-2.0数据手册下载.pdf VIP
- 2025湖南铁道职业技术学院教师招聘考试真题汇总.docx VIP
文档评论(0)