- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HBase的互联网电视运营分析架构和模型设计
基于HBase的互联网电视运营分析架构和模型设计-农学论文
基于HBase的互联网电视运营分析架构和模型设计
廖辰瀚1,王 盛2,李 凯1,王换文1,孟凡德2,尹春阳1
(1.天翼视讯传媒有限公司,上海 201206;2.兵团第五师科技局)
摘要:随着云时代的来临,互联网电视(OTT TV)业务吸引了越来越多的关注。新疆建设兵团所处地域辽阔,生产和生活的网络视频化的管理与服务的需求也日益明显。兵团的互联网电视业务在日常运营中会生成并累积大量的用户行为数据。由于不同类型的用户行为数据来自不同的数据平台,数据结构各异且数量庞大,从成本和性能方面考虑,传统的关系型数据库难以出色地完成用户行为分析。为此,本文介绍一种基于Hbase的互联网电视用户行为分析系统架构和模型设计,实现大规模异构行为数据的挖掘分析,为更好的运营兵团地域的互联网电视业务提供解决办法。
关键词 :HBase;大数据;OTT用户行为数据系统架构;用户行为分析模型
随着互联网电视产业的快速发展,由各终端品牌厂商、平台运营商、互联网视频内容服务商、应用服务提供商等不同的产业链环节,构成了互联网电视产业生态系统。格兰研究的数据统计则显示,截至2013年年底,在产业链各参与方一起发力的催化作用下,中国互联网机顶盒市场存量已破千万台。进入2014年,各大运营商的wifi、4G网络的覆盖也将为互联网电视的业务发展解决“最后一公里”业务到户的障碍。相关数据表明,互联网电视用户发展规模预期到2015年就会接近8 000万,全球来看,到2016年甚至会超过5亿,中国的增长时间会更加早一些。
在互联网电视业务的终端、承载网络和平台管理域都呈现离散分布式密集发展的趋势下,在互联网电视内容监管政策日益紧缩的影响下,着眼于互联网电视业务持续运营的产业链参与方都对互联网电视用户的行为分析以及互联网电视行业应用或承载业务的经营分析提出了更高的要求。新疆建设兵团的诸多互联网电视应用场景正是在宽带高速网络全面覆盖的前提下应运而生:如,兵团内部的党校视频学习、基于IP的互联网电视视频通讯和智能放哨等,如何能在保证数据安全性的前提下,对这些异构行为数据进行第一时间的收集处理,形成可靠的用户行为分析结论,成为互联网电视应用在兵团范围内普及的一个重要课题。
而目前的互联网电视的运营体系相对庞大的用户规模来说,运营平面在各自割裂的管理域里过于集中,数据处理体系呈现平面化,不能适应目前大量用户和业务的异构数据分析运营需求。同时在行业内部还来不及形成一个很好的参考模型,现有的平台之间不具备大数据协同处理的能力,为将来的业务合作后的共同发展形成了障碍。行业内对互联网电视运营数据的系统架构模型需求日益突显。
为了解决上述需求与问题,本文基于HBase的分布式的用户行为分析应用,建立了整体互联网电视数据运营的参考架构模型,并详细列举了相匹配的基本数据结构和数据处理模式,最后与其他的数据库构成方式的性能进行了比较。
1 整体架构
1.1 Hbase原有系统架构
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的、分布式的、多版本的、面向列的存储模型,它存储的是松散型数据。相比传统的关系型数据库,HBase具有易扩展、大数量、扩展灵活、成本低等优势。Hbase的系统架构如图1所示。
1.2 OTT用户行为数据系统架构图
在OTT体系中,每个机顶盒终端就是一个用户,有唯一的用户标识UserID;用户通过机顶盒来访问和使用互联网电视业务,用户在盒端系统上产生的所有行为日志都上传给系统平台(OpenApi),由系统平台进行数据的处理后进行入库,供经分系统进行单用户或批量用户的查询,OTT的用户行为数据系统架构图如图2所示。
2 数据结构
2.1 数据结构设计
Hbase底层是基于列式存储的,可以在不浪费存储空间的情况下将表设计得非常稀疏[1]。因此可以将所有的用户行为数据存储在一张宽的表中,消除在进行“行为间组合查询条件”查询时带来的表联开销。由于Hbase目前并不能很好的处理两个或者三个以上的列族[2-3],本场景中采用单列族设计,列族的大版本数(MaxVersion)设定为1。
想要获得较好的查询效率,应该将频繁查询的条件放在Row Key中,尽量保证查询条件都在Row Key中有所体现。
从图3可以看出Hbase的查询效率从高到低依次为Row Key、Column Family、Column Qualifier、TimeStamp和Value。因此想要获得较好的查询效率,应该将频繁查询的
文档评论(0)