- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【编者按】本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
在移动互联网所覆盖的日常生活中,用户随时随地都在产生数据,数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。
手机大数据的组织与应用
手机上的大数据对于移动互联网业务早期无疑具有非常大的指导意义,但并不是所有的手机上产生的大数据都会那么有意义。比如说社会媒体—微博,每天也会产生大量的数据,但多数都是没有意义的。
手机大数据的组织与应用
手机上产生的大数据需要重新组织方能揭示出有意义的信息。
在现今的时代,大数据本身不是问题,你从各个渠道都可能获得海量的数据;我们每个人每天都要生产很大量的数据,关键的问题是如何处理、分析这些数据。数据不处理、不分析,就像Mary举的例子一样,就是一堆稻草,毫无价值。 一些事
稻草堆里寻针
数据处理、分析就是要从一大垛稻草堆里面挑出一根针。
这句话有两层含义:
无论我们从何种渠道,通过何种方式获得的数据,大量的数据是没有意义的,这其中只有少量的数据是有效地,可以从中得出一些有规律、有价值的信息的,原始数据需要清洗、整理;(这一点对于移动互联网更为明显,一般来说,几乎80%-90%的移动应用数据都是毫无价值的,只有不到10%-20%左右的数据才包含后续分析所需要的信息) i
我们需要通过后续的数据挖掘的工作,从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针,而非一根稻草!这显然,不是简单通过统计就可以得出的;是比统计分析更为复杂的算法,去从简单关联过度复杂逻辑的层面。
从上一章中,我们知道手机上的大数据的来源多种多样,不同的移动互联入口、不同的应用都会导致不同数据的产生,而这些不同的数据又支撑不同的业务,并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点,下面我们根据这些特点来对大数据的组织做一个简单介绍,手机大数据的组织方式可以采用如下图的结构。
手机大数据的组织方式
从上面的结构可以看出,手机大数据的组织主要分为以下三个部分:原始数据存储层,计算层和业务数据存储层
原始数据存储层
主要存储不同入口产生的数据,而不同入口不同数据域也分开并存此时各个数据集是彼此独立,数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性,正确性。
计算层 互联网的一些事
该层的主要任务是对原始数据存储层存取的数据进行挖掘处理,并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点:① 对不同数据域进行内部分析,挖掘。② 对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类,比如音乐、餐饮、广告等应用。 i
业务数据存储层 一些事
业务数据存储层主要是对计算层产出的数据进行分开存储,以为上层应用提供更明确的数据接口。
当我们对数据进行有效地存储管理后,我们就可以利用这些大数据进行一些有意义的工作,尤其是对于移动互联网业务早期无疑具有非常大的指导意义,下面我们以手机阅读为例,对手机上的大数据如何应用做一个说明。
手机上的阅读
手机阅读作为移动互联网目前为数不多还算有一定共性和沉淀应用之一,是我们早期手机应用研究的对象。所谓“共性”和“沉淀”,就是针对手机应用“碎片化”而言。手机阅读虽然也有大量的碎片时间,但已经逐渐形成了一早一晚宝贵的“床上”连片时间,有相对比较完整时间片上呈现的行为习惯,有相对比较完整的用户在移动互联网上体现出来的偏好信息。
尽管很多报告都显示,用户在互联网与移动互联网上的表征有着巨大的差异,但我依然相信,人们在面对一段文字,一个图片上的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同,那是因为应用本身使用场景的不同,解决问题的不同所导致的。并不是一个人在互联网上是一个性格,而到了移动互联网上就是另外一个人生了。 互联网的一些事
这是我们研究手机阅读上大数据的初衷。
下面,我们以一个曾经做过的手机阅读项目为例,主要从发现问题、解决问题、结果验证三个方面来为大家展开。
发现问题
通过对手机阅读数据的挖掘分析,我们发现了如下几个问题:
(1) 城市与城市之间的阅读行为相似
我们统计过杭州、广州、深圳在某一时间段内用户的阅读数据,得到了这三个城市这三个月热门前二十的数据。
下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。
从表中,我们可以猜测,杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。
计算公式为:Sim(A,B) = Same(A,B)*2/[
文档评论(0)