大数据可视化 课件 项目6 Plotly实战.pptx

大数据可视化 课件 项目6 Plotly实战.pptx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

项目六:—Plotly实战(用户行为数据可视化)

目录CONTENTS思考与练习项目概述学习目标用户画像数据清洗用户画像数据可视化

1项目概述

在步入大数据时代后,为了更加精准地挖掘市场需求,企业的关注点逐步聚焦在如何利用大数据技术实现精细化运营和精准营销,这就需要建立本企业的用户画像。项目概述本项目结合Plotly绘图基础,重点掌握建立企业用户画像的一般流程,掌握数据清洗的几种常用方法,掌握用户画像数据的分析方法,灵活利用Plotly可视化工具对分析结果进行展示。

本项目主要掌握以下两个方面的技术:数据清洗的常用方法1Plotly数据可视化方法2项目概述

2学习目标

学习目标通过本项目的学习,能够熟练掌握用户画像的相关思维方法,结合项目案例数据集特点,能够熟练应用Pandas工具包对数据集进行清洗操作,能够熟练利用Plotly可视化工具实现对分析结果的可视化。通过项目案例的实战操作,进一步拓宽用户画像的思维视野,提升使用Plotly可视化工具的可视化的能力,为做一个合格的大数据专业技术人才奠定坚实的基础。

3用户画像数据清洗

用户画像是根据用户社会属性、生活习惯和消费行为等信息抽象出的用户分析模型。构建用户画像的核心工作即是给用户贴“标签”,用数据来描述人的行为和特征。用户画像维度可以分为自然属性、社会属性、消费属性等,其中自然属性主要包括年龄、性别、属地、职业等;社会属性主要包括抖音(微博)粉丝数、关注数等,消费属性主要包括消费偏好、下单频率、消费金额等。任务描述

本项目任务主要是对使用某品牌笔记本电脑的用户的自然属性、社会属性和消费属性的数据进行数据清洗和预处理,利用Pandas数据清洗工具包完成数据集的清洗。包括但不限于以下数据清洗方法:数据集加载、数据去重、缺失值判断、对缺失值处理、数字转换等,为后续数据统计分析和分析结果的可视化奠定基础。通过本任务的学习,掌握Pandas包中数据清洗和预处理的常用函数,如数据去重函数、缺失值处理函数等,并灵活运用Pandas工具包实现对数据的清洗操作。任务描述

知识与技能——数据清洗应用方法很多数据集存在数据重复、数据缺失、数据格式不统一(畸形数据),或错误数据的情况,这就是所谓的“脏数据”,这种数据不仅影响数据的统计分析、也影响数据的可视化展示,还会给严重影响数据模型的训练。对“脏数据”的科学化、合理化的清洗也是大数据分析或者人工智能领域的重要技术环节。Pandas是Python中非常流行的数据分析库,使用它可以进行数据科学计算和数据处理和分析,并且可以联合其他数据科学计算工具一块儿使用,比如,SciPy,NumPy和Matplotlib等。但在实际业务中,Pandas工具包更多的是应用在数据清洗上,本任务主要针对Pandas在数据清洗上的应用做简单介绍。

知识与技能——数据清洗应用方法1.DataFramehead()方法返回DataFrame或Series的前n行,其中n是用户输入值(默认为5行)。head()函数用于获取前n行,这对于快速测试对象中的数据类型是否正确非常有用。对于n的负值,head()函数返回除最后n行之外的所有行,等效于df[:-n]语法格式:Dataframe.head(n=5);参数说明:n为整数值,要返回的行数,python中的head()函数只是选择数据,而不对数据内容做任何改变。

知识与技能——数据清洗应用方法2.info()函数用于获取DataFrame的简要摘要。在对数据进行探索性分析时,为了快速浏览数据集,我们使用dataframe.info()函数。语法格式:DataFrame.info(verbose=None,buf=None,max_cols=None,memory_usage=None,null_counts=None)参数说明:Verbose:是否打印完整的摘要;Buf:可写缓冲区;max_cols:确定是打印完整摘要还是简短摘要;memory_usage:指定是否应显示DataFrame元素(包括索引)的总内存使用情况;null_counts:是否显示非空计数。如果为None,则仅显示框架是否小于max_info_rows和max_info_columns。如果为True,则始终显示计数。如果为False,则从不显示计数。

知识与技能——数据清洗应用方法3.drop_duplicates()函数根据指定的字段对数据集进行去重处理。语法格式:DataFrame.drop_duplicates(subset=None,keep=‘first’,inplace=False)参数说明:Subset:根据指定的列名进行去重,默认整个数据集;Keep:可选{‘first’,‘

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档