- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(Methodology Practice ) 第2章 数据挖掘方法和最佳实践 一、问题的提出 数据挖掘的方法越来越多、越来越复杂,如果某个环节没有做好,数据挖掘工作就可能失败。因此,掌握好方法论是学习数据挖掘的关键,根据作者多年数据挖掘经验,在国内外先进经验的基础上,发展了一套有效的习惯性方法。本章将把这些实践活动总结出的有序步骤,作为数据挖掘的方法论来展示。数据挖掘是一个自然的迭代过程,有些过程需要多次重复进行,完全跳过某个过程不一定恰当。 2.1为什么需要方法 数据挖掘是从过去的数据中获取知识,帮助未来更好决策。本章介绍的实践方法主要为了避免知识获取过程中出现以下两个不希望的结果: 获取了不真实的知识; 获取了真实但无用的知识。 这就像水手要学会绕开海上的漩涡和海中的暗礁等危险一样,数据挖掘人员需要了解如何避免这些常见的陷阱。 2.1.1获取不真实的知识 获取不真实的知识比获取无用的知识更加危险,因为人们可能依据这些不正确的信息做出重要的决策;如果依据不正确的信息进行医学决策,那将是灾难性的。 心脏形态B超检查数据的“病变形态分类”是将二维超声测量的高血压患者心肌20个节段的厚度,与正常者的数据放在一起,用最小距离聚类分析(Minimum Distance Clusters)的方法将心脏形态分成不同的类型。 例如,高血压病程与心脏形变 从聚类分析结果中可以看出,随着高血压病程的持续,心脏的形态变化日益严重,且某些节段的厚度与病程的关系十分密切。 都是是向心性肥厚吗? 2.1.2获取真实但无用的知识 1. 获取已知的知识 获取已知的知识确实可以给我们一个有用的提示,从技术角度来说,这表明数据挖掘工作确有成效,而且数据本身也已经相当精确,这是非常令人鼓舞的。如果数据和所应用的数据挖掘技术足以发现已知正确的事实,据此可以相信其他发现也可能为真。 建立了一棵决策树 嗓子痛 链球菌感染咽炎 发烧 过敏 感冒 yes yes no no 2. 获取不能使用的知识 卫生监督中的“知信行”模型 知:知识和学习,是基础;(信:信念和态度,是动力);行:产生促进健康行为、消除危害健康行为等行为改变的过程,是目标。 。 培训次数增加 以上结果表明经培训后,知识得分下降… 数据挖掘方法论的目的是避免获得不真实的知识,以及任何没有用的知识。更积极的理解是,数据挖掘方法论的目标是确保数据挖掘得到稳定的模型,以便将该模型用于要解决的社会、企业和医学问题。 2.2假设测试 1. 产生假设 例如:假设餐饮服务业的员工经过卫生知识的培训,在有了卫生知识的基础上,认真工作。当下次卫生监督执法检查中各项指标均为优秀。 2. 测试假设 假设测试是科学家和统计学家惯于花费心血研究的事情。假设是一种解释,它的正确性可以由分析数据来检验。这些数据或者仅仅由观察收集,或者由实验生成。当结果显示,用于医院做决策的这些假设是不正确的时候,假设测试是最有价值的。( “知信行”模型) 2.3 数据挖掘的方法 进行数据挖掘的时候,首先要将实际问题转化为数据挖掘问题,能否转换为恰当的数据挖掘问题是进行数据挖掘的关键。 为了尽可能避免获取不真实或者真实但无用的知识,必须采取恰当的方法。本节将数据挖掘的方法分为几个步骤,参见下图。 数据挖掘的方法可以简单的概括为5个步骤 定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。 数据准备:数据准备包括:选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理--进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 数据挖掘和建模:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。 结果分析和模型评估:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。 模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。 (亦可参照书上细化的11个步骤) 小结 这里所说的数据挖掘和模型建立,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。 实际上,所有发现的模型和知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。
您可能关注的文档
- 医学成像及处理技术 教学课件 作者 章新友 10第10章医学图像处理软件与医学图像应用.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第1章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第2章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第3章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第4章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第5章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第6章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第7章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第8章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第9章.ppt
- 医学数据挖掘—SQL Server 2005案例分析 教学课件 作者 周怡 王世伟 主编 医学数据挖掘第3章.ppt
- 医学数据挖掘—SQL Server 2005案例分析 教学课件 作者 周怡 王世伟 主编 医学数据挖掘第4章.ppt
- 医学数据挖掘—SQL Server 2005案例分析 教学课件 作者 周怡 王世伟 主编 医学数据挖掘第5章.ppt
- 医学数据挖掘—SQL Server 2005案例分析 教学课件 作者 周怡 王世伟 主编 医学数据挖掘第6章.ppt
- 医学数据挖掘—SQL Server 2005案例分析 教学课件 作者 周怡 王世伟 主编 医学数据挖掘第7章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第1章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第2章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第3章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第4章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第5章.ppt
最近下载
- 2023年山东省青岛市市北区“未来之星”选拔活动试卷(四、五年级).pdf VIP
- 鲁科版高中化学目录.pdf VIP
- 金融英语翻译 Chapter 15 应收款项.pptx VIP
- 烟草法律知识考试真题题库(含答案).pdf VIP
- 三年级上册 劳动教案.pdf VIP
- DB12T 775-2018 防雷装置检测业务规范.docx VIP
- 专题2.6 一元二次方程应用-几何动态问题(专项训练).pdf VIP
- 觉醒年代人物小传800字.doc VIP
- [通力KONE电梯资料]CTP-07.30.S2A_安全钳.pdf VIP
- 【名校课堂】九年级数学下册 28.1 锐角三角函数 正弦(第1课时)练习 (新版)新人教版.doc VIP
文档评论(0)