移动互联网APP数据仓库的应用实践研究.docVIP

移动互联网APP数据仓库的应用实践研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
移动互联网APP数据仓库的应用实践研究

移动互联网APP数据仓库的应用实践研究   摘要 在大数据的获取、分析与应用的时代,运用移动互联网APP进行开发用户的企业和个人不断增多。对APP用户的行为和需求分析是成败的关键所在,因此,创建移动互联网APP数据仓库成为必然的选择。本文对于移动互联网APP数据仓库的应用实践进行了探讨和研究。 中国论文网 /8/view-7253777.htm   关键词 移动互联网APP;数据仓库;应用;研究   中图分类号TP3   文献标识码A   文章编号1674-6708(2016)156-0067-01   在互联网快速发展的今天,数据仓库作为数据挖掘与储存的支撑平台得到了广泛的运用。在数据仓库中人们的行为数据都将被记录积累下来,为分析者提供了良好的信息渠道和数据支撑。移动互联网APP具有用户流量较小、变化迅速、数据杂乱等特点,因此,使用市面上已有的大型数据仓库并不合适,可为其开发小型数据仓库,对移动互联网APP的用户进行有效的数据积累与分析。   1 移动互联网APP数据仓库的应用需求   对于移动互联网APP数据的记录与挖掘,需要结合APP自身以及其用户使用规律的特点。首先,移动互联网APP自身数据规模较小,因此,其数据仓库也需要具备小巧、灵活的特点,不需要太大的存储空间,但能及时对数据进行灵活的反映。其次,移动互联网APP的数据规律并不稳定,需要数据库及时频繁上传数据,能够对当日的数据尽快做出分析,让APP的开发者有充足的时间对数据的变化做出反应。最后,数据仓库的可靠性和有效性不可忽视,不能遗失有效数据,同时保证所上传给APP开发者的数据与前端数据在数量、参数和信息维度上保持高度一致,确保数据的及时准确有效。   2 移动互联网APP数据仓库的设计思路分析   对于移动互联网APP的数据仓库设计思路结合了APP用户的使用特点和数据规律。首先,用户使用APP过程中所展现的信息状态,表现为关系型的数据联系,包括:用户个人信息,粉丝数目,与其他用户的互动,登录时间的规律规则等。因此,对于数据的统计和整理工作,需要利用它们之间的兼容性以及数据库的主从关系,将数据自动地同步到所建立的数据仓库中。其次,在APP用户的使用过程中,每当用户进行一次操作,便会在服务器端产生一条用户的行为日志。它们往往以日志文件的方式存储下来,规模较大、随意性较强。因此,对于这类数据,需要每间隔一个特定的时间便将他们录入到数据仓库中。在数据转化过程中,注意数据的整齐性和有效性,以及改变格式的失真风险。此外,对于在客户端产生的数据,其数据存在形式往往具有无规则、随机性强的特点,但这样的数据形式可以用来展现用户对APP的使用全貌。对于此类数据,需要将其完整地体现出来,可用于分析用户的使用规则,摸索用户体验的实际操作。最后,在前端数据录入数据仓库后,还需要对其进行检验,包括检验数据的一致性,是否存在多余参数和无效格式等。   3 数据仓库在投入使用中的应用实践   3.1 移动互联网APP数据仓库收集到的数据情况   在移动互联网APP数据仓库的投入使用过程中,经过数据迁移,原始数据主要形成了以下3种数据形式:1)同步到集成前端数据库中的数据。这一部分的数据,是没有经过加工直接同步到位的数据。它们是即时性的,具有自动同步功能,在任何时刻进行查询都可以获取实时数据资料。但由于经过的整理较少,因此,这个数据库中的数据,并不利于整体信息的收录和分析,更适合即时性的资料查询。2)来自服务器的集成数据。这些数据是经过格式化的,收录在数据仓库中提前建好的格式匹配的数据表中。由于用户的资料和行为日志是不断地生成并更新的,因此,这部分的数据资料是每隔一段时间(通常由自己设定)自动收集上来的。在收录这部分资料前,系统会对于之前的信息进行切断式的总结,以防止丢失必要的数据资料。格式化的服务器日志数据,比直接集成的数据资料所占空间更大,因此,这部分数据库的规模,比集成前端的数据库规模大十倍左右。同时,因为其采用截断式的数据收集方式,为了避免前端数据被影响,数据的导入时间一般设定在服务器较为空闲的时刻。3)来自客户端的集成日志。来自客户端的操作日志,具备有序性、不完整性,它们是非格式化的数据。为保证其完整和规范,需要在导入到数据仓库前,集中对其进行格式化的操作。首先,需要进行数据清理和补齐。因为这部分数据在收录过程中会收录到系统自动生成的日志或者机器人操作产生的日志,因此,需要根据APP自身的特点,进行数据清理。而部分数据会有缺失字段的现象,通过设置,可以对发生字段缺失的数据进行补齐。然后,对数据进行格式化处理,将所有字段进行整理,形成统一完整的文本。最后,在数据仓库中建立好与格式相匹配的数据表,将格式化后的数据信息导入到数据仓库中。   3.2 数据仓库对于数据

文档评论(0)

cjl2016001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档