大数据漫谈——数据来源.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 大数据漫谈——数据来源 物联网时代,每个人/设备都是数据的产生者,也是数据的使用者。在线联接是数据化的过程,互动是数据的来来往往,结网协同所需的能量无不来自于数据的张力与动能。 既然谈大数据,那么大数据的第一要务就是需要有数据,否则,何来“数据是DT时代的第一生产要素”。大数据时代的数据,跟农耕时代的土地,工业时代的资本一样重要。 数据来源于哪里,哪里会产生数据? 数据无处不在,人类自从创造文字开始,就开始记录各种数据,只是保存的介质一般是书本,而且难以分析、加工。随着计算机与存储技术的快速发展,以及万物数字化的过程(音频数字化,图形数字化等),出现了数据的爆发,而且数据爆发的趋势,随着万物互联的物联网技术的发展,会越来越快速。同时,对数据的存储技术,处理技术的要求也会越来越高。 据IDC出版的数字世界研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB。而到2020年,数据量将增长10倍,达到44ZB。大数据已经成为当下人类最珍贵的财宝,怎样合理有效的运用这些数据,发挥这些数据应有的作用,这是大数据将要做到的。 早期的企业也比较简洁,关系型数据库中存储的数据,往往是他们全部的数据来源,这个时候他们对应的大数据技术,也就是传统的OLAP数据仓库解决方案。因为关系型数据库中基本上是他们的全部数据,往往大数据技术也比较简洁,直接从关系型数据库中获得统计数据,或者最多建一个统一的OLAP数据仓库中心。 通过淘宝的历史来看,早期的数仓数据基原来源于主业务的OLTP数据库,数据不外乎用户信息(通过注册、认证获取),商品信息(通过卖家上传获得),交易数据(通过买卖行为获得),保藏数据(通过用户的保藏行为获得)。从公司的业务层面来看,关注的也就是这些数据的统计,比如总用户数,活跃用户数,交易笔数、金额(可钻取到类目,省份等),支付宝笔数、金额等等。因为这个时候没有营销系统,没有广告系统,公司也只关注用户,商品,交易的相关数据,这些数据的统计加工,就是当时淘宝大数据的全部。 但是,随着业务的发展,比如个性化推荐,广告投放系统的出现,会需要更多的数据来做支撑,而数据库的用户数据,除了保藏,购物车是用户行为的体现,但是,用户的其它行为,如浏览数据,搜寻行为等,这个时候是完全不知道的。 这里就需要引进另外一个数据来源,日志数据,记录了用户的行为数据,可以通过cookie的技术,只要用户登录过一次,就能跟真实的用户取得关联。比如通过获取用户的浏览行为,购买行为,进而可以给用户推荐他可能感兴趣的商品,看了又看,买了又买就是基于这些最基础的用户行为数据做的推荐算法。这些行为数据还可以用来分析用户的浏览路径,浏览时长,这些数据是用来改进相关淘宝产品的重要依据。 2009年,无线互联网飞速发展,随着基于native技术的App大规模的出现,用传统日志方式获取无线用户行为数据已经不再可能,这个时候也涌现了一批新的无线数据采集分析工具,比如友盟,Talkingdata,淘宝内部的无线数读等等,通过内置的SDK,他们可以统计到native上的用户行为数据。 数据是统计到了,但是,新的问题也诞生了,比如我在PC上的用户行为,怎么对应到无线上的用户行为,这个是脱节的,因为PC是PC上的标准,无线又采用了无线的标准,假如有一个统一的用户库,比如不管是登录名,邮箱,身份证号码,手机号,imei地址,mac地址等等,来唯一标识一个用户,不管是哪里产生的数据,只要是第一次关联上来,后来就能对应上。 这就涉及到了一个重要的话题—数据标准,数据标准不仅仅是解决企业内部数据关联的问题,比如一个好的用户库,可以解决将来大数据关联上的许多问题,假定公安的数据想跟医院的数据进行关联打通,发挥更大的价值。但是,公安标识用户的是身份证,而医院标识用户的数据则是手机号码,有了统一的用户库,就可以通过idmapping技术简洁的把双方的数据进行关联。 数据的标准不仅仅是企业内部进行数据关联特别重要,跨组织,跨企业进行数据关联也特别重要,而业界有能力建立类似用户库等数据标准的公司并不多,阿里巴巴就是其中之一。政府其实很早也就看到这里的价值,早在2002年7月,国家信息化领导小组第二次会议审议通过了《关于我国电子政务建设的指导意见》(以下简称《意见》),依据《意见》的指导原则,国务院信息化领导小组办公室制定了《我国电子政务一期工程建设方案》,该方案确定了“十五”期间重点建设的四大基础性、战略性资源数据库——“人口基础信息库”、“法人单位基础信息库”、“自然资源和空间地理基础信息库”、“宏观经济信

文档评论(0)

认证主体菲亚企业管理咨询服务(天津自贸试验区)有限公司
IP属地天津
统一社会信用代码/组织机构代码
91120118MA05M78NXX

1亿VIP精品文档

相关文档