如何写好数据分析报告-方法篇.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何写一份好的数据分析报告 (二)方法篇 短彩事业部 2011-6 在互联网的数据挖掘中,爬虫类算法(深度优先、广度优先、最佳优先)也经常被用于数据采集工作 什么是分类? 鸟类占50%以上 所以把这个群体定义为 鸟 什么是聚类? 物以类聚 什么是相关? 喙相关性强 喙相关性强 喙相关性弱 经典算法描述——贝叶斯 待分类内容 拆分关键字 分类字库 分类完成 自我学习 ① ② ③ ④ ⑤ 经典算法描述——K-means 随机选K个点 作为临时中心点 ① 把每一个点配给 最近的中心,并 计算新的中心 ② N次循环第2步 完成最终聚类 ③ 经典算法描述——slope one ? 筛选数据源 ① 衡定内容间关系 ② ?≈ 预测结果 ③ 分析常用图形 散点图 善于发现因果关系 用于探索性数据分析 目的是探索自变量 和因变量之间的关系 直方图 不仅能够度量被计量事物的 数目、频数,还能体现各个 区间所代表的整个数据集的 百分比 雷达图 善于描述某实物各个 属性的强弱分布 除此以外,一些组合图也常用于分析描述,如柱-线图,柱-饼图…… 年份  XXX普及率 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 2008年 74.01% 78.45% 72.66% 72.11% 75.64% 74.25% 73.64% 74.42% 74.97% 73.11% 72.51% 74.00% 2009年 79.04% 74.91% 72.06% 71.71% 73.34% 71.58% 73.11% 72.50% 70.80% 71.80% 69.27% 69.99% 2010年 71.05% 75.31% 70.95% 69.58% 70.50% 70.94% 71.81% 72.22% 71.12% 69.75% 68.18% 68.64% 2011年 69.99% 74.08% 69.26%  ?                 案例分析 下表为X省XXX普及率,08-10年,及11年1-3月数据。从往年数据明显看出,普及率逐年、逐月都在呈 下降趋势,为使11年4月普及率能保持环比/同比不下降,预计需要发展多少0活动用户? 普及率发展趋势? 普及率=? 普及率达到效果? 活动客户数/总客户数 逐年逐月下降 环比持平(69.26%) 自问 自答 年份  XXX普及率 平均 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 2008年 74.01% 78.45% 72.66% 72.11% 75.64% 74.25% 73.64% 74.42% 74.97% 73.11% 72.51% 74.00% 74.15% 2009年 79.04% 74.91% 72.06% 71.71% 73.34% 71.58% 73.11% 72.50% 70.80% 71.80% 69.27% 69.99% 72.51% 2010年 71.05% 75.31% 70.95% 69.58% 70.50% 70.94% 71.81% 72.22% 71.12% 69.75% 68.18% 68.64% 70.84% 2011年 69.99% 74.08% 69.26%  ?                 平均 73.52% 75.69% 71.23% 71.13% 73.16% 72.26% 72.85% 73.05% 72.30% 71.55% 69.99% 70.88% 普及率在2月有大幅提升,处全年最高 年均下降1.65% 图表为月平均普及率散点图,趋势线为一次线性回归拟合线,并通过回归统计分析,计算拟合系数及 调整拟合系数均远低于标准置信度0.95。因此普及率呈非线性趋势。 因此试选用slope one算法,处理个性化的预测分析。 回归统计 Multiple R 0.566194 R Square 0.320576 Adjusted R Square -1.22222 标准误差 0.013286 观测值 1 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 2010真实 71.05% 75.31% 70.95% 69.58% 70.50% 70.94% 71.81% 72.22% 71.12% 69.75% 68.18% 68.64% 2010预测 73.22% 74.50% 70.16% 69.46% 71.59% 70.56% 71.14% 71.31% 70.59% 69.91% 68.34% 69.27% 经评预测平局,10年全年预测误差0.0092,去掉1、2月波动后误差0.0065(即0.65%) 经过SLOPE ONE预测,11年4月普及率 =67.97%±0

文档评论(0)

shaoye348 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档