实训9健康数据挖掘
项目背景实训目标实训任务技术准备实训步骤目录
项目背景随着生活质量的提高,人们越来越关注自身的健康问题,健康数据是随着近几年数字浪潮和信息现代化而出现的新名词,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的健康数据的集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。健康大数据的整合再利用对于身体状况监测,疾病预防和健康趋势分析都具有积极的意义。
实训目标理解健康数据分析的意义;掌握项目流程;掌握数据挖掘的基本方法;掌握不同方法的具体使用;掌握实验结果对比分析;掌握算法之间的优劣。
实训任务(1)进一步掌握项目流程(Crisp-DM框架)并应用到健康数据挖掘中;(2)对K近邻、逻辑回归、支持向量机、神经网络、决策树、随机森林、Adaboost、朴素贝叶斯种算法应用到健康数据中实践;(3)对多种算法的实验结果进行对比和分析。
技术准备监督学习半监督学习无监督学习有特征有标签即有标准答案有特征部分标签训练部分有标准答案有特征,无标签即无标准答案分类回归分类回归聚类聚类
技术准备由于数据挖掘的应用领域十分广泛,因此产生了多种数据挖掘的算法和方法。对于某一数据集很有效的算法,对另一数据集却有可能完全无效。因此,要针对具体的挖掘目标和应用对象设计不同的算法。
技术准备本章节主要采用的是分类。使用以下八种算法进行实验:K近邻、逻辑回归、支持向量机、神经网络、决策树、随机森林、Adaboost、朴素贝叶斯算法
K近邻算法K-近邻(k-NearestNeighbor,KNN)算法是一种基本分类方法。最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但测试对象与训练对象的完全匹配是不现实的,一个训练对象可能被分到多个类中,由此诞生了K-近邻算法。它是通过测量不同特征值之间的距离进行分类,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。
K近邻算法K-近邻算法的基本思路是:选择未知样本在一定范围内确定个数的K个样本,该K个样本大多数属于某一类型,则未知样本九被判定为该类型。
K近邻算法1、导入K近邻算法模块fromsklearn.neighborsimportKNeighborsClassifier2、建模model=KNeighborsClassifier()KNeighborsClassifier(n_neighbors=5,weights=uniform,algorithm=auto,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1)
K近邻算法KNeighborsClassifier类常用的参数及其说明如下表所示。参数名称说明n_neighbors接收int。表示“邻居”数。默认为5weights接收str。表示分类判断时最近邻的权重,可选参数为uniform和distance,uniform表示权重相等,distance表示按距离的倒数赋予权重。默认为uniformalgorithm接收str。表示分类时采取的算法,可选参数为auto、ball_tree、kd_tree和brute,一般选择auto自动选择最优的算法。默认为autometric接收str。表示距离度量。默认为minkowskip接收int。表示距离度量公式,p=1表示曼哈顿距离,p=2表示欧式距离。默认为2n_jobs接收int。表示计算时使用的核数。默认为1
K近邻算法3、调用模型对象中的fit()方法,对数据进行拟合训练model=model.fit(X_train,y_train)model4、调用模型中的score()方法,考察训练效果,训练集上的准确率判断rv=model.score(X_train,y_train)rv
K近邻算法5、调用模型中的predict()方法,对测试样本进行预测,获得预测结果。y_test_pred=model.predict(X_test)判断模型准确的的机器学习相关包:#导入相关的数据包fromsklearn.metricsimportconfusion_matrix,classification_reportfromsklearn.metricsimportaccuracy_score,precision_score,recall_score
K近邻算法6、调用模型中的predict_proba()方法,对测试样本的概率进
您可能关注的文档
- 实训项目10:美团美食店铺数据分析实训.pptx
- 实训项目11:交通大数据分析实训.pptx
- 大数据治理(高级) 课件 西财 实训项目8:人力资源数据挖掘.pptx
- 大数据治理(高级) 课件 西财 实训项目7:电影数据可视化.pptx
- 大数据治理(高级) 课件 西财 实训项目6:人力资源数据可视化.pptx
- 大数据治理(高级) 课件 西财 实训项目5:泰坦尼克号数据可视化.pptx
- 大数据治理(高级) 课件 西财 实训项目3:人力资源数据预处理.pptx
- 大数据治理(高级) 课件 西财 实训项目4:鸢尾花数据预处理.pptx
- 大数据治理(高级) 课件 西财 第1篇:概论篇.pptx
- 大数据治理(高级) 课件 西财 实训项目1:期货数据预处理.pptx
最近下载
- CECS304-2011 建筑用金属面绝热夹芯板安装及验收规程.docx VIP
- 基于大数据的电池新材料设计.docx VIP
- XF_T 87-2023 防火刨花板XF_T 87-2023 防火刨花板.docx VIP
- 2026年新能源大数据行业数据安全报告.docx VIP
- 春节加班奖励报告通知模板.docx VIP
- T_SXCAS 043-2025 公路路面基层煤矸石细集料应用技术标准.docx VIP
- DB61_T 2005-2025 道路多孔水泥混凝土路面施工技术规范.docx VIP
- DB11_T 1322.81-2025 安全生产等级评定技术规范 第81部分:歌舞娱乐场所.pdf VIP
- DB51_T 3317-2025 高寒草地生态修复碳汇核算技术规范.pdf VIP
- DB51_T 3312-2025 四川省斜坡地质灾害隐患风险详查技术指南.pdf VIP
原创力文档

文档评论(0)