- 16
- 0
- 约2.04千字
- 约 7页
- 2018-11-11 发布于江苏
- 举报
Python拉勾网数据采集与可视化
Python拉勾网数据采集与可视化
数据可视化
下载下来的数据长成这个样子:
注意标题(也就是列明)是我自己添加的。
导入模块并配置绘图风格
import pandas as pd # 数据框操作
import numpy as np
import matplotlib.pyplot as plt # 绘图
import jieba # 分词
from wordcloud importWordCloud# 词云可视化
import matplotlib as mpl # 配置字体
from pyecharts importGeo# 地理图
mpl.rcParams[“font.sans-serif”] = [“Microsoft YaHei”]
# 配置绘图风格
plt.rcParams[“axes.labelsize”] = 16.
plt.rcParams[“xtick.labelsize”] = 14.
plt.rcParams[“ytick.labelsize”] = 14.
plt.rcParams[“legend.fontsize”] = 12.
plt.rcParams[“figure.figsize”] = [15., 15.]
注意:导入模块的时候其他都容易解决,除了wordcloud这个模块,这个模块我建议大家手动安装,如果pip安装的话,会提示你缺少C++14.0之类的错误,导致安装不上。手动下载whl文件就可以顺利安装了。
数据预览
# 导入数据
data = pd.read_csv(‘D:Windows 7 DocumentsDesktopMyLaGouDataPython.csv’,encoding=‘gbk’) # 导入数据
data.head()
read_csv路径不要带有中文
data.tail()
学历要求
data[‘学历要求’].value_counts().plot(kind=‘barh’,rot=0)
plt.show()
工作经验
data[‘工作经验’].value_counts().plot(kind=‘bar’,rot=0,color=‘b’)
plt.show()
Python热门岗位
final = ‘‘
stopwords = [‘PYTHON’,’python’,’Python’,’工程师’,’(’,’)’,’/’] # 停止词
for n in range(data.shape[0]):
seg_list = list(jieba.cut(data[‘岗位职称’][n]))
for seg in seg_list:
if seg notin stopwords:
final = final + seg + ‘ ‘
# final 得到的词汇
工作地点
data[‘工作地点’].value_counts().plot(kind=‘pie’,autopct=‘%1.2f%%’,explode = np.linspace(0,1.5,25))
plt.show()
工作地理图
# 提取数据框
data2 = list(map(lambda x:(data[‘工作地点’][x],eval(re.split(‘k|K’,data[‘工资’][x])[0])*1000),range(len(data))))
# 提取价格信息
data3 = pd.DataFrame(data2)
# 转化成Geo需要的格式
data4 = list(map(lambda x:(data3.groupby(0).mean()[1].index[x],data3.groupby(0).mean()[1].values[x]),range(len(data3.groupby(0)))))
# 地理位置展示
geo = Geo(“全国Python工资布局”, “制作人:挖掘机小王子”, title_color=“#fff”, title_pos=“left”, width=1200, height=600,
background_color=‘#404a59’)
attr, value = geo.cast(data4)
geo.add(““, attr, value, type=“heatmap”, is_visualmap=True, visual_range=[0, 300], visual_text_color=‘#fff’)
您可能关注的文档
- NI模块化平台方案,助力国产飞机翱翔蓝天.doc
- NI:中国已成为5G全球“战场”的重要一环.doc
- NI给工程师带来五大新品 给用户带来更多保障.doc
- Nokia 8 Sirocco评测体验:一部真旗舰无线充电+骁龙835.doc
- Nokia X6千元机中的战斗机.doc
- Node.js语言将会告诉你如何打造专属于自己的区块链项目.doc
- NOR Flash行业趋势分析 浅谈NOR Flash原理及性能.doc
- NOLO VR打破VR行业壁垒 让所有 VR 头盔“动起来”.doc
- nova2拆机图解 这个价格值不值得购买.doc
- nRF5182嵌入式系统智能手环设计.doc
- 宣贯培训(2026年)《NYT 4512-2025 非洲菊疫病抗性鉴定技术规程》.pptx
- 宣贯培训(2026年)《NYT 4514-2025木薯副产物综合利用导则》.pptx
- 宣贯培训(2026年)《NYT 4513-2025木薯全程机械化生产技术规范》.pptx
- 宣贯培训(2026年)《NYT 4470-2025全株玉米青贮质量分级》.pptx
- 宣贯培训(2026年)《NYT 4468-2025玉米供需平衡表编制规范》.pptx
- 宣贯培训(2026年)《NYT 4469-2025全株玉米青贮质量评定 综合指数法》.pptx
- 宣贯培训(2026年)《NYT 4474-2025东北地区玉米-大豆轮作生产技术规程》.pptx
- 宣贯培训(2026年)《NYT 4472-2025玉米耐盐碱鉴定评价技术规程》.pptx
- 宣贯培训(2026年)《NYT 4473-2025玉米抗旱性鉴定评价技术规程》.pptx
- 宣贯培训(2026年)《NYT 4478-2025甘薯收获技术规程》.pptx
原创力文档

文档评论(0)