- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何写一份好的数据分析报告
(二)方法篇
短彩事业部 2011-6
在互联网的数据挖掘中,爬虫类算法(深度优先、广度优先、最佳优先)也经常被用于数据采集工作
什么是分类?
鸟类占50%以上
所以把这个群体定义为
鸟
什么是聚类?
物以类聚
什么是相关?
喙相关性强
喙相关性强
喙相关性弱
经典算法描述——贝叶斯
待分类内容
拆分关键字
分类字库
分类完成
自我学习
①
②
③
④
⑤
经典算法描述——K-means
随机选K个点
作为临时中心点
①
把每一个点配给
最近的中心,并
计算新的中心
②
N次循环第2步
完成最终聚类
③
经典算法描述——slope one
?
筛选数据源
①
衡定内容间关系
②
?≈
预测结果
③
分析常用图形
散点图
善于发现因果关系
用于探索性数据分析
目的是探索自变量
和因变量之间的关系
直方图
不仅能够度量被计量事物的
数目、频数,还能体现各个
区间所代表的整个数据集的
百分比
雷达图
善于描述某实物各个
属性的强弱分布
除此以外,一些组合图也常用于分析描述,如柱-线图,柱-饼图……
年份
XXX普及率
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
2008年
74.01%
78.45%
72.66%
72.11%
75.64%
74.25%
73.64%
74.42%
74.97%
73.11%
72.51%
74.00%
2009年
79.04%
74.91%
72.06%
71.71%
73.34%
71.58%
73.11%
72.50%
70.80%
71.80%
69.27%
69.99%
2010年
71.05%
75.31%
70.95%
69.58%
70.50%
70.94%
71.81%
72.22%
71.12%
69.75%
68.18%
68.64%
2011年
69.99%
74.08%
69.26%
?
案例分析
下表为X省XXX普及率,08-10年,及11年1-3月数据。从往年数据明显看出,普及率逐年、逐月都在呈
下降趋势,为使11年4月普及率能保持环比/同比不下降,预计需要发展多少0活动用户?
普及率发展趋势?
普及率=?
普及率达到效果?
活动客户数/总客户数
逐年逐月下降
环比持平(69.26%)
自问
自答
年份
XXX普及率
平均
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
2008年
74.01%
78.45%
72.66%
72.11%
75.64%
74.25%
73.64%
74.42%
74.97%
73.11%
72.51%
74.00%
74.15%
2009年
79.04%
74.91%
72.06%
71.71%
73.34%
71.58%
73.11%
72.50%
70.80%
71.80%
69.27%
69.99%
72.51%
2010年
71.05%
75.31%
70.95%
69.58%
70.50%
70.94%
71.81%
72.22%
71.12%
69.75%
68.18%
68.64%
70.84%
2011年
69.99%
74.08%
69.26%
?
平均
73.52%
75.69%
71.23%
71.13%
73.16%
72.26%
72.85%
73.05%
72.30%
71.55%
69.99%
70.88%
普及率在2月有大幅提升,处全年最高
年均下降1.65%
图表为月平均普及率散点图,趋势线为一次线性回归拟合线,并通过回归统计分析,计算拟合系数及
调整拟合系数均远低于标准置信度0.95。因此普及率呈非线性趋势。
因此试选用slope one算法,处理个性化的预测分析。
回归统计
Multiple R
0.566194
R Square
0.320576
Adjusted R Square
-1.22222
标准误差
0.013286
观测值
1
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
2010真实
71.05%
75.31%
70.95%
69.58%
70.50%
70.94%
71.81%
72.22%
71.12%
69.75%
68.18%
68.64%
2010预测
73.22%
74.50%
70.16%
69.46%
71.59%
70.56%
71.14%
71.31%
70.59%
69.91%
68.34%
69.27%
经评预测平局,10年全年预测误差0.0092,去掉1、2月波动后误差0.0065(即0.65%)
经过SLOPE ONE预测,11年4月普及率 =67.97%±0
文档评论(0)