数据挖掘和知识发现方法研究.docVIP

下载本文档

30
0
约6.07千字
约 10页
2018-04-07 发布于北京
举报
版权申诉

数据挖掘和知识发现方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘和知识发现方法研究　　摘要:归纳了最新的数据挖掘和知识发现方法的理论和应用进展,详细总结了研究和应用的一些关键技术,最后对数据挖掘和知识发现将来的理论发展趋势和应用趋势做出了展望。　　关键词:数据挖掘;知识发现　　中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)02-281-03 　　The Studay of Date Mining and Knowledge Discovery in Database 　　SHI Feng-fei, HU Fei, LU Chao 　　(Department of Physics, Shaanxi University of Technology, Hanzhong 723000, China) 　　Abstract: This article tries to draw a general picture of the newest development progress of Data Mining and Knowledge Discovery in Database within both theory and application of it. Summarized the general approaches of research and application in DM/KDD fields. At the end, forecasted the DM/KDD foreseeable future. 　　Key words: data mining; knowledge discovery in database 　　随着数据库技术的不断发展和数据库系统的广泛应用,数据库中存储的数据量急剧增大。但目前数据库系统所能做到的只是对数据库中已有的数据进行存取,人们只能看到这些数据的一些表面的东西,而不能看到隐藏在这些数据之后的更重要的信息,即关于这些数据的整体特征的描述和发展趋势的预测等等。而后一种信息对决策过程具有重要的意义。这就要求我们将研究重点从数据的生产和传输能力转移到数据的分析能力上来。数据挖掘与知识发现是人工智能、机器学习与数据库技术相结合的产物。数据挖掘是知识发现最关键的步骤,也是技术难点所在。知识发现的研究是信息技术的汇总,它融数据库技术、人工智能技术、数理统计技术和可视化技术为一体,是一个多学科相互交叉融合所形成的一个新兴的具有广泛应用前景的研究领域。　　1 知识发现的核心――数据挖掘　　数据挖掘是知识发现的最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前大多数的研究都集中在数据挖掘算法和应用上。人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆使用。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测在实际应用中,往往根据模式的实际作用细分为以下几种: 　　1.1 分类模式　　分类模式是一个分类函数(分类器),能够把数据集中的数据项映射到某个给定的类上。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。　　1.2 回归模式　　回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。　　1.3 时间序列模式　　时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力)等。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。　　1.4 聚类模式　　聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪一(几)个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段重新组织数据。　　1.5 关联模式和序列模式　　关联模式是数据项之间的关联规则。序列模式与关联模式相仿,而把数据之间的关联性与时间联