- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何快速搭建一个BI数据分析平台?说明:公司跟作者个人介绍见文章最后面我司(惠每医疗)的一个主要产品是面向中小诊所的运营SaaS软件,就是诊所可以通过登录网站的方式完成诊所的日常工作,如完成病历,开药以及日常的盘点等。同时产品的推广渠道比较多元化,包括地面销售团队,合作伙伴推广以及常规的搜索引擎推广。作为一个资源相对有限的创业公司,重点关注的就是不同渠道的用户转化以及产品使用情况。因为自己之前一直在数据算法团队,对于数据收集、处理与应用的流程比较熟悉,加上公司本身规模不大,业务也相对简单,所以在和神策数据沟通后还是觉得自己可以尝试基于阿里云平台快速搭建一个公司自有的数据分析平台。以阿里云产品体系为例,一个典型的网站架构如下:图1 基于阿里云的网站典型架构除了云服务之外,我们还购买了负载均衡SLB,云数据库RDS,云数据库Redis,云监控等服务,主要是考虑是初期没有专业的运维,而这些产品很好的解决了运维需求。言归正传,主要还是介绍一下数据分析平台的搭建,下面是一个简单的数据流程架构图。图2 基于阿里云数加的数据分析平台我们以常规的七日留存率为例,来说明数据分析流程构建。七日留存率的一个简单计算公式如下:七日留存率 = 七天前注册的当日活跃用户数 / 七天前注册的用户数根据不同公司业务的运营策略,有时也直接将登录系统的用户等价为活跃用户,这个例子中允许定义活跃用户的关键行为(以诊所软件为例,活跃用户需要开处方、售药等)。一、数据收集通常来说数据包括前端日志和后端结构化数据两部分。以计算常规的七日留存率为例,活跃用户数(必须满足指定的使用轨迹)来自于前端服务器(Apache或者Nginx)日志的解析。步骤一:采用埋点的技术来记录用户的访问行为:1. URL埋点最简单的方法就是投放到不同推广渠道的注册页在url上使用特殊的参数来标记渠道,如channel=xxx,这样解析前端访问日志时就可以通过refer字段来区分渠道。2. 点击埋点点击埋点是被广泛使用的技术,简单的做法是在前端页面在发送需要记录的行为时额外发送一个后端请求,如请求一个非常小的图片文件1.gif,文件本身没有任何内容,主要是用于在前端日志中产生一个记录,同样的,在这个请求会带上特殊的参数,如spm=xx.xx.xx.xx,而且参数本身可以采用类似于ip的段位来构建埋点体系,如第一段表示业务,第二段表示产品,第三段表示功能,第四段表示位置等等。如图3的淘宝网埋点示例:图3 淘宝网前端埋点示例最终前端产生的日志(以apache为例)如图4所示:图4 apache日志示例通过URL参数和点击埋点,我们可以就可以监控用户在网站上的使用轨迹,以七日留存率指标为例,我们可以定义活跃用户的行为必须包括哪些关键路径,即spm埋点必须符合哪些规则。步骤二:自动解析并同步集群机器日志到日志数据库1. 在所有ECS上安装阿里云logtail工具,ECS上几个命令行搞定,如图5所示:图5 logtail命令行安装Logtail会自动根据设定的时间间隔提交数据。2. 创建日志数据库开通日志服务后,在日志服务控制台创建Project(支持多个LogStore),Project下面创建LogStore(支持多个解析配置),创建配置(即解析规则),如图6所示。图6 LogStore中的解析配置这样就完成日志数据的结构化存储,而计算七日留存所需的用户注册数据则已经以结构化的形式存储在RDS Mysql中,下一步需要做的是定时提取LogStore和Mysql中的数据进行运算。二、数据处理云端的数据处理就好像Evernote和有道云笔记一样,可以非常方便的实现在线多人协作。阿里大数据计算平台好像也是今年9月份左右开始对外公测,之前的名称叫做ODPS,后来改名叫做大数据计算服务(MaxCompute),虽然对于我来说都一样拗口难懂(后面我就用ODPS来统一代指这个服务)……现在数据处理这块,阿里云其实是单独开个了产品线,命名为阿里云数加平台,对应的服务入口并没有集成到缺省的阿里云控制台目录菜单,在控制台形形色色的产品命名中并不容易定位,所以,真正用起来只能收藏夹管理入口了……吐槽结束,数据处理包括数据同步、数据运算和运维两个核心部分,数据同步将LogStore和RDS Mysql数据同步到ODPS,数据运算和运维则基于ODPS实现多人协作开发数据处理任务并进行上线管理。进入阿里云数加控制台后,进入数据开发目录,然后创建Project,创建后通过右边的Project数据开发链接进入了一个在线的IDE(有点像云笔记),就可以开始干活了。步骤一:同步LogStore和RDS Mysql数据到ODPS数据库表1. LogStore的数据同步基本做法就是在IDE的数据管理模块中创建和LogStore相同结构的ODP
文档评论(0)