- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
python医疗系统设计_使⽤Python抓取、分析、可视化—万家
医疗诊所信息
本篇⽂章是使⽤ Pyt on 抓取万家医疗上⾯的诊所信息,并且对关键信息进⾏分析,实现数据可视化。由于时间和能⼒的问题,能抓取的数
据类型较少,分析的维度也不⾜。但是尝试去剖析在国家倡导分级诊疗的⼤环境下,移动医疗在社区诊所上的发展情况。所以抓取了万家医
疗⽹站⾥⾯的诊所数据,并从诊所区域分布、科室类型以及是否⽀持医保上进⾏了数据分析和可视化。
准备⼯作
⾸先是开始抓取前准备⼯作,导⼊需要使⽤的库⽂件,爬⾍主要使⽤的是requests和BeautifulSoup两个库,数据分析主要使⽤ Numpy
和 Pandas 两个库,外加 matplotlib 库实现数据可视化。
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
抓取诊所列表信息
在抓取前需要先观察下万家医疗诊所列表页⾯的的结构,URL为 “ ttps://www.pinganwj .com/clinic/pa1”,其中 ”pg1”为页⾯数,
共有846个页⾯,预计诊所有8460家左右,可以使⽤循环遍历所有的页⾯,获取信息。
#设置 url 的前⾯部分
url = ttps://www.pinganwj .com/clinic/
确定了 URL 链接之后,还需要设置浏览器头部( eaders)信息,否则系统会识别爬⾍程序,从⽽阻⽌访问页⾯。
#设置url的前⾯部分
eaders = {User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
C rome/56.0.2924.87 Safari/537.36,
Accept:text/j avascript, application/j avascript, application/ecmascript, application/x-ecmascript, /; q=0.0 1,
Accept-C arset:ISO-8859- 1,utf-8;q=0.7,*;q=0.3,
Accept-Encoding:utf-8,
Connection:keep-alive,
Referer: ttp:///link?url=_and fsjjj KRgEWkj 7i9cFmYYGsisrnm2A-
TN3XZDQXxvGsM9k9ZZSnikW2Yds4swd=eqid=c3435a7d00006bd600000003582bfd1f
}
使⽤ for 循环⽣成 1-847 的数字,转化格式后与前⾯的 URL 固定部分拼成要抓取的 URL。这⾥我们设置每两个页⾯间隔 0.5 秒。抓取
到的页⾯保存在 tml 中。
#循环抓取列表页信息
for i in range(1,847):
if i == 1:
i=str(i)
a=(url+pg+i)
r=requests.get(url=a, eaders= eaders)
tml=r.text
else:
i=str(i)
a=(url+pg+i)
r=requests.get(url=a, eaders= eaders)
tml2=r.text
tml = tml + tml2
#每次间隔0.5秒
time.sleep(0.5)
#在页⾯打印爬取进度
print (正在爬取第+i+页)
@爬取进度页⾯|center
解析页⾯并提取信息
页⾯爬取下来之后,需要使⽤ BeautifulSoup 对页⾯进⾏解析,变成我们在浏览器查看源代码中看到的样⼦,这样我们才能提取关键信
息。
#使⽤ BeautifulSoup 解析抓取的页⾯内容
wj = BeautifulSoup( tml, tml.parser)
到 ⽬前为⽌,我们已经 800+ 多个页⾯的信息爬取下来,并且通过 BeautifulSoup 解释为我们常见的源代码⽅式。下⾯就是通过分析爬取
字段中 Div的 id 或者 class 提取关键信息。
#将诊所列表中的信息保存在 hospital 中,其中 find_all 获取的是⼀个 list ,就是
您可能关注的文档
- python信用卡违约预测分析-Python数据分析及可视化实例之银行信用卡违约预测(24)....pdf
- python信用卡违约预测分析-Python机器学习实战:信用卡欺诈检测.pdf
- python共享单车数据分析-共享单车数据可视化分析(PythonSeaborn).pdf
- python关联分析如何可视化-Python共享单车数据可视化分析.pdf
- python写股票指标-用Python做股票指标RSI分析.pdf
- python函数可视化心得-最近关于数据可视化方面交流的心得感悟.pdf
- Python分析csv文件及可视化绘图.pdf
- python分析两组数据的差异-3步搞懂Python数据分析关键点.pdf
- python分析两组数据的差异-十分钟搞懂“Python数据分析”.pdf
- python分析数据的变化趋势及前景-Python数据分析三板斧.pdf
- 2024年1月14日甘肃省司法厅遴选公务员笔试题及解析.docx
- 2024年大连中山区事业编考试综合知识运用及答案.docx
- 2008-2024年江苏省省属事业单招聘考试《综合知识和能力素质》真题试卷及答案.docx
- 2025年中考历史总复习中国历史第三册全册知识提纲(精品).docx
- 2025年中考历史诵读版—九年级下册全册复习提纲(精编版).docx
- 【消防工程师押题卷】2024一级消防工程师消防安全案例分析押题密卷.docx
- 【消防工程师押题密卷】2024一级消防工程师消防安全案例分析押题密卷(考试必备).docx
- 【消防工程师押题密卷】2024一级消防工程师消防安全案例分析押题密卷(名师解析).docx
- 档案管理办法及实施细则.docx
- 物业保洁公共区域清洁频次规定.doc
文档评论(0)