Python拉勾网数据采集与可视化.docVIP

  • 16
  • 0
  • 约2.04千字
  • 约 7页
  • 2018-11-11 发布于江苏
  • 举报
Python拉勾网数据采集与可视化

Python拉勾网数据采集与可视化   数据可视化   下载下来的数据长成这个样子:      注意标题(也就是列明)是我自己添加的。   导入模块并配置绘图风格   import pandas as pd # 数据框操作   import numpy as np   import matplotlib.pyplot as plt # 绘图   import jieba # 分词   from wordcloud importWordCloud# 词云可视化   import matplotlib as mpl # 配置字体   from pyecharts importGeo# 地理图   mpl.rcParams[“font.sans-serif”] = [“Microsoft YaHei”]   # 配置绘图风格   plt.rcParams[“axes.labelsize”] = 16.   plt.rcParams[“xtick.labelsize”] = 14.   plt.rcParams[“ytick.labelsize”] = 14.   plt.rcParams[“legend.fontsize”] = 12.   plt.rcParams[“figure.figsize”] = [15., 15.]   注意:导入模块的时候其他都容易解决,除了wordcloud这个模块,这个模块我建议大家手动安装,如果pip安装的话,会提示你缺少C++14.0之类的错误,导致安装不上。手动下载whl文件就可以顺利安装了。   数据预览   # 导入数据   data = pd.read_csv(‘D:Windows 7 DocumentsDesktopMyLaGouDataPython.csv’,encoding=‘gbk’) # 导入数据   data.head()      read_csv路径不要带有中文   data.tail()      学历要求   data[‘学历要求’].value_counts().plot(kind=‘barh’,rot=0)   plt.show()      工作经验   data[‘工作经验’].value_counts().plot(kind=‘bar’,rot=0,color=‘b’)   plt.show()      Python热门岗位   final = ‘‘   stopwords = [‘PYTHON’,’python’,’Python’,’工程师’,’(’,’)’,’/’] # 停止词   for n in range(data.shape[0]):   seg_list = list(jieba.cut(data[‘岗位职称’][n]))   for seg in seg_list:   if seg notin stopwords:   final = final + seg + ‘ ‘   # final 得到的词汇      工作地点   data[‘工作地点’].value_counts().plot(kind=‘pie’,autopct=‘%1.2f%%’,explode = np.linspace(0,1.5,25))   plt.show()      工作地理图   # 提取数据框   data2 = list(map(lambda x:(data[‘工作地点’][x],eval(re.split(‘k|K’,data[‘工资’][x])[0])*1000),range(len(data))))   # 提取价格信息   data3 = pd.DataFrame(data2)   # 转化成Geo需要的格式   data4 = list(map(lambda x:(data3.groupby(0).mean()[1].index[x],data3.groupby(0).mean()[1].values[x]),range(len(data3.groupby(0)))))   # 地理位置展示   geo = Geo(“全国Python工资布局”, “制作人:挖掘机小王子”, title_color=“#fff”, title_pos=“left”, width=1200, height=600,   background_color=‘#404a59’)   attr, value = geo.cast(data4)   geo.add(““, attr, value, type=“heatmap”, is_visualmap=True, visual_range=[0, 300], visual_text_color=‘#fff’)

文档评论(0)

1亿VIP精品文档

相关文档