大数据研究方法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析方法交流 关于分析思想、流程与工具的探讨 主要内容 引言 数据分析的工作框架 数据分析的实施流程 总结 引言 引言 言数据必称“大” 的时代 交通大数据、旅游大数据、网购大数据 2011年开始的各种各样的“V”: Volume、Variety、Velocity(Value、Veracity-真实性) 各种全新的配套手段: 存储(云);处理(并行); 保护(安全性);分析(数据挖掘、机器学习) 潜力无限 vs 言过其实? 创新为主 vs 传承为主? 引言 思考1:“大”数据,到底应该多大? 量级不严格、范围不严格 思考2:新方法,到底有多新? 大多数传承传统方式 新方法解决面窄 思考3:新结论,到底多有价值? 陈述事实多,推理结论少 展示效果好,实践应用差 总结:大数据更多是一种新的数据观 充分认识数据的价值(潜力与局限) 正确选择分析的方法 引言 零售数据分析:我们的优势 1、拥有最精华的数据,产出结论有说服力 (大而全不一定是长处:收集成本高、筛选困难) 2、时间长涵盖面广,便于比较分析 我们需要仔细分析的是: 想做什么 能做什么 怎样做 数据分析的工作框架 工作框架 需要的结论:既想要也想得到的 数据资源和分析方法大量扩充 — 右半边扩张 分析对象理解和问题思考有所不足 — 左半边停滞 最重要的还是商业思维 需要得到的结论 数据分析可以解决的内容 大数据 商业思维 数据资源 理解 Deep Understanding 分析方法 洞察 Insight   前瞻 Prospect 工作框架 充分扩展两个部分,首先代表: 理解宏观问题 给出系统假设 将假设化简至可被数据分析 其次,两项工作无法忽视: 充分研究了解对象 — 我们想要知道什么 (发现问题) 判断我们想要研究的问题是否有意义 (减少人力损耗) 工作框架 数据分析的六个阶段 1、对研究对象主观的和客观的、整体的和局部的认识 2、提出希望探索的宏观的问题(自由的或是有明确的) 3、探讨分析这些问题并产生结论的价值 4、为选出的研究问题提出充分的假设。 5、将研究假设进行拆解、划分成为可定量分析的单元。 6、结合数据资源和数据分析方法产生结论,验证假设及理论的扩展性。 工作框架 两个重要问题 产生的结论要有理论解释 反面例子:消费额和停车场大小正相关 (相关性需要结合背景) 机器学习方法解释性差、往往模型拟合数据,由于现实世界太复杂,参数太多,因此使用效果并不好 认真思考提出问题的操作性 反面例子:不同客户的消费偏好分析、竞争力比较 我们将结合六个步骤,分别讨论完成它们的方法和一些重点问题 数据分析的具体流程 步骤1:建立对对象的整体认知 内容:对对象建立主观印象 意义:产生新问题;产生对问题的合理假设 着手点: 观察现状;例子:购物中心的消费习惯转变 观察数据;例子:消费数据分析暗示的消费群体变化 此外,闻者有心:例子:外卖数据暗示房价 步骤2:提出希望探索的宏观问题 内容:提出大目标 形式:“A对B的影响”、“A未来一年的销售额”等易于描述的、可变因子不超过一个的问题。 反面例子:不同业态对不同年龄段顾客的影响 1、业态和年龄段范围太广 2、“影响”未指明具体内容 导致此调查耗费资源、失去重点 可改成:餐饮区域面积占比对顾客到店数目的影响(划定业态、指明影响内容、排除掉年龄因素) 步骤3:探讨阐述结论的价值 相同的结论对不同的对象价值不同 例:火车票订票信息:增开列车?疏导客流?市政服务? 思考分析结果对各种对象的可能价值 正面例子:男女性消费者对购物中心环境设计的不同偏好 反面例子:为不同地域的客户设计不同会员礼品 - 成本 反面例子:周边办公楼客流对销售影响 - 无法采取措施 步骤4:对宏观问题提出充分假设 内容:将大问题提出各种各样的小问题 例子:顾客对购物中心服务的满意度的影响因素 假设1:服务人员对待客户的态度 假设2:购物中心提供的额外服务的种类 假设3:购物中心的环境 验证假设来分析真实的影响因素及其影响程度 步骤5:将对象分解为可测量数据 内容:将各项假设提到的元素定量化 以假设1:服务人员对待客户的态度为例: 数据库中数据:出勤记录、日常考核记录、投诉记录 问卷调查数据:服务效率、服务意识、用词方式、普通话标准、表现情感等相似的定量评分 注:部分研究问题已经明显定量化,部分则需要人工确定量化标准 步骤6:运用数据分析方法产生结论 内容:套用各种数据方法产出结论 形式:数值、概率值、图表 分析软件和语言 SPSS、SAS、Matlab、smartPLS Python、R等等 分析方法: 常规统计方法:T检验、方差分析、相关分析、回归分析、因子分析、时间序列分析、结构方程模型等,参考任意一本统计学教材。 机器学习方法:聚类、分类、神经网络

文档评论(0)

xina171127 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档