[医学]知识发现.docVIP

下载本文档

9
0
约2.39千字
约 7页
2018-02-28 发布于浙江
举报
版权申诉

[医学]知识发现.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[医学]知识发现

知识发现定义：知识发现（KDD：Knowledge Discovery in Databases）是他是从大量的、不完整的、有噪声的、模糊的和随机的数据中，提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识的过程。知识发现将信息变为知识，从数据矿山中找到蕴藏的知识金块，将为知识创新和知识经济的发展作出贡献。知识发现与数据挖掘的关系：数据挖掘（Data Mining），就是从海量的数据中挖掘出隐含在其中的矿藏——知识。一般认为广义的数据挖掘又称数据库中的知识发现（Knowledge Discovery in Database），简称知识发现（KDD）。狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据关系之间关系的过程，是知识发现过程的一个步骤，一个完整的知识发现过程如图所示：从图可见，数据挖掘只是只是发现过程中一个发现模式的子过程，并且是最核心的过程。知识发现的过程模型： KDD基本过程(the process of the KDD) 完成从大型源数据中发现有价值知识的过程可以简单概括为：首先从数据源中抽取出感兴趣的数据，并把它组织成适合挖掘的数据组织形式；然后调用相应的算法生成所需要的知识；最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文From Data Mining to knowledge discovery中总结出了KDD包含的5个最基本步骤. 　　 1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中. 　 2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在的错误以及缺失信息. 　　 3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化. 　　 4: data mining: 应用数据挖掘工具. 　　 5: interpretation/evaluation: 了解以及评估数据挖掘结果. 　　 2.常用KDD过程模型 (KDD process model) 　　随着Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年总结出的KDD 5个基本步骤, 各种不同的KDD过程模型在此基础上发展以及完善起来.整体来说,KDD过程模型包含学术模型(academic research model)以及工业模型(industrial model)两大类. 常见的KDD过程模型有: 　　1996 年Fayyad等人提出的 9 步骤模型(nine-steps model). 　　1999 年 european commission 机构起草的CRISP-DM 模型. (cross-industry standard process for data mining) “7步骤模型”KDD过程模型：目标定义创建目标数据集数据预处理数据转换数据挖掘解释和评估采取行动选取几个比较有代表性的KDD模型构架加以介绍：阶梯处理过程模型：阶梯处理过程模型将数据库中的知识发现看作是一个多阶段的处理过程，在整个知识发现过程中包括很多处理阶段。 Usama M.Fayyad等人给出的一个多阶段处理模型：在对挖掘的知识进行评价后，根据结果可以决定是否重新进行某些处理过程，在处理的任意阶段都可以返回以前的阶段进行再处理。整个KDD模型呈现出阶梯状的递进过程。螺旋处理过程模型： G.H．John在其博士论文中给出的螺旋处理过程模型，该模型在整个处理过程的组织和表达上，强调领域专家参与的重要性，并以问题的定义为中心循环评价挖掘的结果。当结果不令人满意时，就需要重新定义问题，开始新的处理循环。每次循环都使问题更清晰结果更准确，因此他是一个螺旋式上升过程。该处理过程主要强调需要领域专家的参与。由领域的专业知识指导数据库中的知识发现的各个阶段，并对发现知识进行评价。整个KDD过程通过问题定义来和用户交互和改进挖掘质量，使得通过迭代反复使挖掘任务越来越清晰、算法参数越来越准确，进而挖掘质量螺旋式上升。 CRISP-DM（cross-industry standard process for data mining跨行业数据挖掘过程标准CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段. 1:business understanding: 即商业理解.