- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web医疗数据互联网医疗用户探究
基于Web医疗数据互联网医疗用户探究 摘 要: 互联网医疗的蓬勃发展带来了大量的数据积累,如何有效的利用这些数据是当前面临的问题。通过开发爬虫软件,获取了截至2017年2月寻医问药网中内科和外科的131894条咨询数据。针对这些数据,用统计学方法调查用户的性别和年龄分布,通过程序识别咨询数据中的症状和疾病,统计了现阶段互联网医疗用户症状和疾病的分布
关键词: 互联网医疗; 网页爬虫; 症状分布; 疾病分布
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2017)04-41-03
Abstract: The rapid development of the Internet medical has brought a lot of data, and how to make effective use of these data is the problem currently faced. In this paper, a crawler is developed to have acquired 131,894 internal and surgical medicine enquiry data by February 2017, from medicine websites. According to these data, the distribution of users’ gender and age are investigated by the statistical methods, and the distribution of the symptoms and diseases of the Internet medical users at this stage are counted by the identification.
Key words: Internet medical; Web crawler; symptom distribution; disease distribution
0 引言
?t疗一直是人们关注的热点话题,与人们的生活紧密相关,随着互联网的发展,越来越多的人选择在网上咨询医生关于健康的问题。中国互联网络信息中心(CNNIC)发布的《第37次中国互联网络发展状况统计报告》显示,2015年,中国互联网医疗用户数量为1.52亿。网络医疗咨询提供了一个新的方式,让用户可以不用实地见到医生,就可以咨询病情[1],能够帮助用户方便快捷的了解自身的健康信息。互联网医疗行业积累了大量的用户疾病数据,如何有效的利用这些数据是现阶段面临的主要问题。目前已有一些学者从不同角度对在线医疗咨询数据的信息挖掘进行了研究。Silver MP[2]研究了患者在线健康信息搜索的相关问题。石思优[3]应用Med-LDA 模型研究医疗数据中病症和用药的独立关系和相互联系。Ullah Z[4]等人认为使用数据挖掘算法可以提高预测、诊断和疾病分类的质量,研究了数据挖掘技术的成本、性能、速度和准确性。魏强[5]通过研究医疗数据存储与分析系统,对疾病间关联关系进行分析。Walczak等人[6]研究了病人的医疗检查信息在提高计算机诊断准确性方面的应用。陈迁[7]研究了医疗数据在分析糖尿病住院患者基本信息、治疗医嘱、生化指标、费用明细等方面的应用。闫茜[8]提出了一种用于数据处理的基于统计树和增量计算的海量医疗数据快速统计查询方法。许杰[9]提出了一种基于数据不一致率的新型数据分类方法。李萍[10]研究了医疗数据质量的特点,如统一性、可靠性、“多粒度”级别、高可用性、高适用性。蒋良孝[11]对医疗数据挖掘的主要特点、基本过程、关键技术、计算智能方法以及发展方向进行了探讨
本文通过开发爬虫软件获取截至2017年2月寻医问药网中内科和外科的131894条医疗咨询数据。针对这些数据,用统计学的方法调查用户的年龄分布、性别分布。通过识别医疗数据中的症状和疾病,对不同年龄段、不同性别的用户的症状和患病情况进行调查,得出了现阶段我国互联网医疗用户的特征和分布
1 获取数据
通过分析网站的结构,本文采用多级网页爬虫的方式获取数据,首先获得一级科室的链接,然后获取每个一级科室下属的二级科室链接。每个一级和二级科室的页面中都有用户的问题咨询列表,本文获取了内科和外科中的所有问题集合,并对集合进行去重操作,最后共得到网页链接131894个。针对每一个网页,我们获取的用户信息包括性别、年龄、咨询的内容和医生的回复内容
在具体的爬虫代码中,为了防止频繁访问网站导致的爬虫被网站限制,本文采用用户代理(User Agent)和程序随机休眠相结合的方法。User Age
文档评论(0)