卢晨曦大作业报告.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

84357592021105140439卢晨曦大作业报告

-第1章背景与挖掘目标第2章分析方法与过程第3章结果分析123

2021105140439卢晨曦大作业报告实验报告标题基于线性回归算法的医院药品销售额数据分析姓名卢晨曦学号2021105140439班级21计应4班教师孙利大数据项目分析应用大作业报告2023年11月22日

2021105140439卢晨曦大作业报告第1章背景与挖掘目标1.1背景如今随着居民健康意识的提高,医院就医的数据呈现出指数型增长的事态现有的数据量级已经远远超过了目前人力所能处理的范畴,比起人的经验主义来做决策,只有实时的数据分析和反馈才能适应更快的变化将大数据分析技术应用到医院运营管理当中,能够在海量的大数据中挖掘出最具价值的数据信息,并加以利用,保证医疗企业中的各项管理工作得以顺利展开在一些大型的医疗企业当中,这方面的数据分析已得到了充分应用,管理人员结合大数据分析平台提供的各项数据,全方面了解企业经营管理情况,对原有的经营管理制度进行优化

2021105140439卢晨曦大作业报告1.2数据挖掘目标本文以北京市朝阳医院为案例,获取2018年1月-7月的药品销售数据,通过对所售药品进行归类,数量统计,对药品的成分组成、药品月均消费次数、月均消费金额、客单价、消费趋势进行分析。对药品销量的影响因素进行预测;对药品销量前十的数据进行分析,对医院就诊人群的年龄进行分析,来分析患者的购药需求及深层分析致病原因,为患者,医院,药品生产商提出参考,提醒群众购置相关药品,提前加以防范运用一元线性回归建模,以日为周期,元为单位,应收金额为自变量,实收金额为因变量,探索两者之间的关系并进行预测。即给到一个自变量:应收金额,通过一元线性回归算法预测因变量:实收金额。该建模可以减少医院工作量,做到医院真正销售额的估值

2021105140439卢晨曦大作业报告第2章分析方法与过程2.1分析思路通过数据分析医院药品的销售情况,分析医院月均消费次数、月均消费金额、客单价、消费趋势进行分析,对药品销量的影响因素进行预测通过对药品销量前十的数据进行分析,分析2018年流行病毒,提醒群众购置相关药品,提前加以防范通过对药品销量前十的数据进行分析,对医院就诊人群的年龄进行预测,增加年龄占比大的相关设备和药品储备通过线性回归算法,给出应收金额,预测实收金额

2021105140439卢晨曦大作业报告2.2分析涉及指标

2021105140439卢晨曦大作业报告2.3数据来源采集数据:本文数据来源于公开数据数据集来源:朝阳医院2018年销售数据.xlsx、药品总销量.xlsx,总共6578行7列数据

2021105140439卢晨曦大作业报告2.4数据探索与预处理2.4.1数据预处理(1)加载数据分析常用库

2021105140439卢晨曦大作业报告其中%matplotlibinline,用于绘制图形时将图形直接嵌入到Notebook中,而不是弹出一个新的窗口显示图形(2)读取文件

2021105140439卢晨曦大作业报告(3)查看数据总共有6578行7列数据,但是购药时间和社保卡号这两列只有6576个数据,而商品编码一直到实收金额这些列都是只有6577个数据,这就意味着数据中存在缺失值,可以推断出数据中存在一行缺失值,此外购药时间和社保卡号这两列都各自存在一个缺失数据,这些缺失数据在后面步骤中需要进一步处理(4)选择子集

2021105140439卢晨曦大作业报告在我们获取到的数据中,数据量十分庞大,但是不是每一列都是我们所需要分析的呢,不一定,那么这个时候就要选择整个数据中合适的子集去进行分析,这样可以使后续的分析变得更加方便,在本次案例中,不需要选择子集,所以可以先跳过这一步(5)列名重命名在数据的获取中,有时候会有一些列名和数据不那么符合,或者容易产生歧义,一不小心就理解错了,很不利于分析,在这个时候,就需要给列名重命名,把购药时间改成销售时间比较有利于理解,inplace=True,直接在原数据框内改动。代码如下

2021105140439卢晨曦大作业报告(6)缺失值处理任何一个得到的数据都很有可能会有缺失值,那么对于这些缺失值一定需要处理一下,不然会干扰后来的分析结果。删除缺失值用dropna函数。购药时间和社保卡号这两列只有6576个数据的消费数据对于本次分析是无效的,所以清理一下缺失值。代码如下

2021105140439卢晨曦大作业报告(7)数据类型处理在导入的时候为了防止有些数据导入不进来,所以强制所有数据都是object类型,但在实际分析上这样是不可能的,所以要把需要改变类型的数据类型改变了,通过观察,我们发现,销售数量,应收金额,实收金额,应该改成float类型,销售时间应该清

文档评论(0)

xuexinxin2020 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档