西安与郑州火锅团购数据分析-1.docxVIP

  • 83
  • 0
  • 约1.84万字
  • 约 44页
  • 2022-12-26 发布于湖北
  • 举报
西安与郑州火锅团购数据分析 目标 (1)分析西安郑州两地的年销量对比分析; (2)两地在火锅消费中的菜品特征; (3)绘制两地热门评论的词云图; (4)模型分析 插入库 import matplotlib matplotlib.rcParams[font.sans-serif] = [SimHei] # 显示中文 # 为了坐标轴负号正常显示。matplotlib默认不支持中文,设置中文字体后,负号会显示异常。需要手动将坐标轴负号设为False才能正常显示负号。 matplotlib.rcParams[axes.unicode_minus] = False ## 前期准备:加载所需工具包 import pandas as pd import numpy as np import os import matplotlib.pyplot as plt import seaborn as sns import jieba import jieba.analyse import collections import squarify from PIL import Image from wordcloud import WordCloud, ImageColorGenerator import statsmodels.formula.api as smf from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = all #变量自动显示 pd.set_option(display.max_columns, None) #显示所有列 数据准备以及数据说明 本次实践采用截止2018年8月1日某团购平台上西安与郑州火锅团购数据进行分析,共1345条团购数据和44845条评论数据。通过本次实践,结合店铺信息、团购基本信息、图片信息和使用规则,探究如何进行团购设置已提供团购项目的销量。数据文件包括: 1)comment.xlsx:评论数据44845条 2)group_buying.xlsx:团购信息1345条 3)group_buying_processed.xlsx:预处理后的团购信息1345条 In?[?]: path = ../data data = pd.read_excel(os.path.join(path, group_buying.xlsx)) #读取团购数据 comment = pd.read_excel(os.path.join(path, comment.xlsx)) #读取评论数据 data.info() #查看data的数据量、缺失情况及数据类型 comment.info() #查看comment的数据量、缺失情况及数据类型 class pandas.core.frame.DataFrame RangeIndex: 1345 entries, 0 to 1344 Data columns (total 37 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Unnamed: 0 1345 non-null int64 1 团购活动ID 1345 non-null int64 2 团购名称 1345 non-null object 3 店名 1345 non-null object 4 购买人数 1345 non-null int64 5 团购评分 1345 non-null float64 6 团购评价数 1345 non-null int64 7 团购价 1345 non-null float64 8 市场价 1345 non-null float64 9 内容丰富度 1345 non-null int64 10 是否为代金券 1345 non-null int64 11 有效期 1345 non-null int64 12 是否周末节假日通用 1345 non-null int64 13 是否需要预约 1345 non-null int6

文档评论(0)

1亿VIP精品文档

相关文档