知识发现与数据挖掘.docx

下载文档 降价啦

4
0
约 11页
2016-08-23 发布于湖北
举报
版权申诉
保障服务

知识发现与数据挖掘.docx

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

知识发现与数据挖掘

知识发现理论与应用研究知识发现理论与应用研究摘要:知识发现方法极大地方便了用户从海量数据中提取出有用的知识。本文首先介绍了知识发现模型处理数据的过程。其次，数据挖掘是知识发现的关键步骤，对分类技术、关联分析技术和聚类技术三类数据挖掘技术进行了详细概述。最后，结合作者目前研究方向，以个性化知识服务技术和设计理性模型知识挖掘过程为例，对涉及到的知识发现技术进行了分析。关键词：知识发现数据挖掘分类关联分析聚类Research of Theory and Application of Knowledge DiscoveryAbstract: It has been much easier for users to extract useful knowledge from the massive data with knowledge discovery methods. First, the knowledge discovery model data process is introduced in this paper. Second, data mining is a key step in knowledge discovery. The classification techniques, association analysis techniques and clustering techniques are summarized in detail. At last, based on the current research direction, the personalized knowledge service technology and design rational knowledge model mining process are taken as examples to analyze the related knowledge discovery techniques.Key words: Knowledge discovery; Data mining; Classification; Association analysis; Clustering1 前言随着云计算、云制造、物联网、大数据等信息技术的迅速发展以及企业信息化建设的不断推进，企业在全生命周期业务活动中产生的数据增长迅速，种类繁多、数量巨大[1]。例如，记录企业销售和运转的详细情况的数据[2]，地球轨道卫星发送回地球的高分辨率图像和遥感数据[3]，以及基因组实验对越来越多的有机体产生的序列、结构和技能数据等[4]。未来学家约翰·奈比斯特指出：“人类正被数据淹没，却饥渴于信息”。从浩瀚无际的数据海洋中发现潜在的、有价值的知识，是这个大数据时代的一个标志性工作[5]。然而，虽然各行业拥有大量的数据，但仍缺乏有用的知识。由于这些海量数据十分复杂，且具有不完整、高维、异种、模糊和随机等非传统特点[6]，无法使用传统的数据分析工具和技术进行处理。为了解决这个问题，Fayyad于1989年首次提出知识发现（Knowledge Discovery in Data，KDD）的概念[7]，它是指从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。本文介绍了知识发现模型对数据的处理过程，并对知识发现的关键步骤——数据挖掘技术进行了详细概述。在以上理论的基础上，结合实际研究，以个性化知识服务技术和设计理性模型知识挖掘过程为例，对涉及到的知识发现的关键技术进行了分析。2 知识发现经典KDD处理模型又称阶梯处理模型，是Fayyad等人提出的具有九个步骤的阶梯递进的KDD处理模型，如图1所示，这九个步骤分别如下[8]。（1）数据准备：了解应用领域的相关情况，熟悉相关背景知识，确定用户的需求。（2）数据选择：根据用户的要求从数据库中提取出与KDD相关的数据，KDD将主要从这些数据中进行知识提取，在此过程中，会利用一些数据库操作对数据进行处理。（3）数据预处理：对从数据库中提取的数据进行清洗，检查数据的完整性及数据的一致性，对其中的噪声数据、缺失数据进行处理。对噪声数据通常要解决的问题包括如何发现和处理重复记录和错误的属性值，对数据采取什么样的数据平滑工作，以及如何发现和处理孤立点。（4）数据缩减：经过预处理的数据，根据知识发现的任务对数据进行再处理，主要通过投影或数据库中的其他操作减少数据量。（5）确定KDD的目标：根据用户的要求，确定KDD是发现何种类型的知识，因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。（6）确定知识发现算法：在确定KDD目标后，根据这个目标选择合适的知识发现算法，包