- 73
- 0
- 约9.67万字
- 约 71页
- 2021-02-03 发布于江西
- 举报
摘要
随着时代的发展,互联网技术已经逐渐地与医疗领域相融合。同时,在大数据时
Hadoop Spark
代背景下,各种数据呈现爆炸式的增长。海量数据处理技术如 、 等也越
来越趋向于成熟。因此,如何在大数据背景下,利用计算机进行辅助疾病诊断,并为
用户进行个性化的医生推荐,已经成为当下互联网医疗行业一个很重要的课题。
一方面,病人患病后仍然会去医院由医生进行疾病诊治,利用人工神经网络等信
息技术进行疾病诊断仍然处于早期研究阶段;另一方面,互联网数据的爆炸式增长使
得传统的推荐算法无法很好的向用户进行医生推荐。因此,本文针对疾病诊断和个性
化医生推荐进行研究,设计并实现了基于大数据的问诊推荐系统。现将本文内容归纳
如下:
1. 本文提出了基于分层的疾病诊断神经网络模型,主要目的是为了解决根据病
人所患疾病的症状分析出具体疾病种类的问题。该模型首先对病人疾病症状进行处理,
使用k-means 算法进行症状词向量的聚类分析,从而使疾病症状词向量由高维转为低
维;然后,以病人的疾病症状作为输入神经元,疾病的种类作为输出神经元,训练并
BP BP
构建基于分层的 神经网络模型。实验显示,本模型与普通的 神经网络模型相
比,拥有更好的疾病诊断准确率。
2. 在使用神经网络模型诊断出疾病种类的基础上,本文采用组合推荐模型向用
户进行个性化的医生推荐。本文对基于内容的推荐算法、基于用户的协同过滤算法以
及基于项目的协同过滤算法进行加权组合,并将组合后的结果推荐给用户。基于内容
的推荐算法通过建立医生对象的属性特征矩阵和用户偏好医生模型,从而向用户推荐
其喜欢的医生对象;基于用户的协同过滤算法和基于项目的协同过滤算法分别建立用
户相似度矩阵和医生对象相似度矩阵,从而向用户推荐其感兴趣的医生对象;基于组
合的推荐算法则通过加权组合,将三种算法结合起来,向用户推荐其喜爱的医生。实
验显示,基于组合的推荐算法与单一的推荐算法相比较,拥有更好的推荐效果。
3. 设计并实现了基于 Hadoop 的问诊推荐系统。该系统主要由浏览器客户端、
Web 服务器、Hadoop 集群、Nutch 爬虫服务器和数据库组成,并向用户提供用户管
Nutch Hadoop
理、疾病诊断、医生推荐等功能。其中, 爬虫服务器用来进行数据的采集;
集群用来离线执行算法并训练算法模型;数据库负责保存整个系统所要用到的数据;
I
Web 服务器是整个系统后台的出入口,用来提供用户管理、疾病诊断、医生推荐的功
能;浏览器客户端则用来使用户可以访问到本系统。
关键词:大数据,疾病诊断,医生推荐,Hadoop ,BP 神经网络
II
目录
摘要I
ABSTRACTIII
第一章 绪论 1
1.1 课题研究背景及意义 1
1.2 国内外研究现状2
1.2.1 人工神经网络在疾病诊断的研究现状2
1.2.2 推荐系统的研究现状3
1.3 本文的研究内容和创新点6
1.4 本文的组织结构7
第二章 问诊推荐系统相关技术9
2.1 开源网络爬虫Nutch 介绍9
2.1.1 Nutch 爬虫的数据文件9
2.1.2 Nutch 的工作原理9
2.2 大数据平台Hadoop 介绍 12
2.2.1 分布式文件系统HDF
您可能关注的文档
- 5-羟色胺通路关键基因对述情障碍的影响.pdf
- 新型氧杂多环荧光染料的合成及其在蛋白染色中的应用.pdf
- 不同降水格局下填闲种植对旱作冬小麦农田土壤温室气体排放的影响.pdf
- 基于元胞蚁群边缘提取的文物线图生成方法研究与实现.pdf
- Scabellones A-D的仿生全合成研究.pdf
- 黄土高原半干旱脆弱区农户生计恢复力研究——以榆中县为例.pdf
- 大豆根际氢氧化细菌的分离及不同生育期对大豆根际微生物多样性的影响.pdf
- 灵长类动物面部数据集构建及识别方法研究.pdf
- 人纤溶酶原Kringle5与电压依赖性阴离子通道蛋白VDAC1的相互作用研究.pdf
- 基于联合稀疏流形正则模型的荧光分子断层成像.pdf
原创力文档

文档评论(0)