- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第
第PAGExxxviii页共NUMPAGES42页
基于电商大数据的数据仓库的设计与实现
摘要:近年来随着国内外电子商务的飞速发展,电商用户迎来了井喷式的增长。海量用户所带来的是海量数据。无论是是用户在电商系统中点击和浏览等事件埋点数据,还是用户进行加入购物、收藏、下单和支付等实际业务数据都达到了PB乃至ZB级。面对海量数据,各电商企业难以避免的要进行数据挖掘、分析和实时计算,从而使数据产生更大的价值。但是面对数量如此庞大的历史数据,如若在传统的关系型数据库上进行存储、分析和计算并非明智之举,关系型数据库由于其低冗余和纷繁复杂的关系映射在面对海量数据时将大幅度降低数据查询的效率。因此,建立数据仓库已成为了大数据业务的基础。在数据仓库中可以进行数据分层,在不同层级中可以进行数据清洗、数据整合,将数据整合汇总成分析某一个主题域的服务数据宽表,为数据挖掘、分析和可视化打下基础。当然,如何保质保量的将数据从业务数据服务器和日志服务器导入数据仓库也是仓库搭建前需要解决的重要问题,对于不同类型和不同来源的数据,都需要提供最为高效和安全的解决方案。数据仓库搭建完成之后,对数据进行可视化和分析也就有了便捷和高质量的数据来源。综上所述,本文将详述如何将海量数据采集至数据仓库,并且进行数据仓分层开发。
关键词:电子商务;大数据;数据仓库;数据可视化
目录
TOC\o1-2\h\u67761、绪论 1
254181.1、研究背景与意义 1
60251.2、国内外研究现状 2
38671.3、主要研究内容 2
271721.4、本文的组织结构 3
224582、相关技术分析 4
18182.1、Hadoop框架及其组件 4
297002.2、数据采集技术 6
209532.3、Hive 8
188313、电商数据生成与采集 9
291783.1、环境搭建 9
165203.2、数据生成脚本编写 13
230703.3、数据采集 20
101194、数据仓库设计 25
130534.1、环境搭建 25
120284.2、数据仓建模方法介绍及选择 26
131954.3、数据分层 27
2985、压力测试 34
306205.1、HDFS测试 35
252855.2、Kafka测试 36
124126、期待与展望 36
27053参考文献 37
随着电子商务的飞速发展,随着大数据和云计算相关技术的诞生,随着微服务和SaaS等新兴架构的出现,电商大数据已成为了一个炙手可热的话题。由于庞大的用户量以至于各大电商系统中每天都能产生海量数据。对于这些数据进行采集、存储、加工和分析并为企业决策提供支撑已经成为了至关重要的问题。然而在这一系列过程中如何高效的采集数据,清洗数据并为可视化提供支撑等一系列问题,亟需改善!
1、绪论
1.1、研究背景与意义
随着电子商务的飞速发展,电商用户不断增长,电商业务不断拓宽,近年来其产生的数据以指数级增长。截至2020年6月,中国网络购物用户高达7.49亿,占网民整体的79.7%。数据显示,截至2020年10月,我国在业/存续的电商主体265.1万,其中企业196.0万,个体户69.1万,电商个体户占比26.1%,超过总量的1/4。显而易见的是新冠疫情大流行对实体店的冲击巨大,大量实体销售份额流入电商。企查查数据显示,2020年一季度电商市场主体注册量12.6万,同比下降31.8%,二、三季度电商市场主体注册量26.6万、24.4万,同比增长26.2%、17.4%。而“新零售”给众多电商巨头公司带来了前所未有的机遇,究其本质是电商巨头在数据密集型应用上具有传统行业和企业无法比拟的数据优势,他们拥有着全方位、宽领域和多层次的用户数据,特是这其中还包括了用户身份信息、用户网络状态、用户使用的终端信息、用户业务、用户地理位置信息、用户社交关系和用户信用等具有极高商业价值的数据。[1]贾翼.基于Hive的电商多维分析系统的设计与实现[D].浙江工业大学,2020.这些数据真实反映了当今世界和全社会的运行演化进程,但常常在冗杂的数据海洋之中被忽视。
[1]贾翼.基于Hive的电商多维分析系统的设计与实现[D].浙江工业大学,2020.
[2]崔迪,郭小燕,陈为.大数据可视化的挑战与最新进展[J].计算机应用,2017,37(07):2044-2049+2056.
由此可见电商大数据时代,或者说DT时代已然到来。海量的商品和海量用户必然导致电商系统每日产生TB级别的数据,这些数据具有数据量大、增长快速、非结构化等特点,可能隐藏着大量的潜在信息[3]侯晓芳,王欢,李瑛
您可能关注的文档
- 2025【220kV~500kV输电线路自动重合闸配置探究11000字】.doc
- 2025【220V交直流双向变换电源设计与仿真探究13000字】.docx
- 2025【670t-h电站的空气预热器设计及计算5900字】.docx
- 2025【1200镁合金分条圆盘剪结构设计14000字】.docx
- 2025【2022年平凉市病媒生物监测分析6000字论文】.doc
- 2025【35000DWT散货船的方案设计13000字】.doc
- 2025【36000立方米日储量的污水处理厂工艺初步设计10000字】.docx
- 2025【53000DWT散货船SU02PS货舱舷侧分段生产设计9500字】.doc
- 2025【A大学学生公寓楼项目施工组织设计11000字】.docx
- 2025【A房地产公司员工招聘方案的优化设计6700字】.docx
- 山西省晋中市2024-2025学年高三下学期3月二模地理试题(A卷) (原卷版+解析版).docx
- 2025年河南省驻马店市驿城区中考一模道德与法治试题(原卷版+解析版).docx
- 2025届山西省晋中市高三下学期适应性训练考试(二模)英语试题+答案(原卷版+解析版).docx
- 2025年河南省信阳市光山县中考二模英语试题(原卷版+解析版).docx
- 2025届黑龙江省名校协作体高三下学期一模考试政治试题(原卷版+解析版).docx
- 统编版六年级上册语文第四单元习作:笔尖流出的故事课件 (共26张PPT).pptx
- 江苏省盐城市第一次七校联考2024-2025学年高二下学期3月月考数学试题(原卷版+解析版).docx
- 江西省上饶市第一中学2024-2025学年高一下学期3月月考地理试题(原卷版+解析版).docx
- 湖北省武汉市第六中学2024-2025学年高三第5次月考政治试卷(原卷版+解析版).docx
- 2025年河南省商丘市睢阳区商丘工学院附属兴华学校中考一模英语试题(原卷版+解析版).docx
文档评论(0)