数据挖掘原理法及应用第1章绪论.pptVIP

下载本文档

7
0
约1.1万字
约 60页
2018-06-20 发布于福建
举报
版权申诉

数据挖掘原理法及应用第1章绪论.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘原理法及应用第1章绪论

1.1　数据挖掘的概念和定义　　数据挖掘（Date Mining）是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术。它是从大量的数据中筛选出有效的、可信的以及隐含信息的高级处理过程。　　数据挖掘包含丰富的内涵，是一个多学科交叉的研究领域。仅从从事研究和开发的人员来说，其涉及范围之广是其他领域所难以企及的，既有大学里的专门研究人员，也有商业公司的专家和技术人员。研究背景的不同会使他们从不同的角度来看待数据挖掘的概念。因此，理解数据挖掘的概念不是简单地下个定义就能解决的问题。 1.2　数据挖掘的历史及发展　　数据挖掘可以看做是信息技术自然演化的结果。像其他新技术的发展历程一样，数据挖掘也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看，大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段。 1.3　数据挖掘的研究内容及功能 1.3.1　数据挖掘的研究内容 　　目前，数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘。  　　数据挖掘所发现的知识最常见的有以下五类。 1.4　数据挖掘的常用技术及工具　　数据挖掘是从人工智能领域的一个分支——机器学习发展而来的，因此机器学习、模式识别、人工智能领域的常规技术，如聚类、决策树、统计等方法经过改进，大都可以应用于数据挖掘。数据挖掘的常用技术有决策树、规则发现、神经网络、贝叶斯网络、关联规则、聚类、可视化、文本/Web挖掘等。近年来，神经网络、贝叶斯网络、关联规则等技术在数据挖掘中的应用发展很快；可视化技术受到越来越多的重视；文本和Web数据的挖掘成为一个新兴的研究方向。 1.5　数据挖掘的应用热点　　就目前来看，数据挖掘未来的几个应用热点包括网站的数据挖掘、生物数据挖掘、文本的数据挖掘、实时数据挖掘以及数据挖掘中的隐私保护和信息安全。　　大量的时间序列是非平稳的，其特征参数和数据分布随着时间的推移而发生变化，仅仅通过对某段历史数据的训练，建立单一的神经网络预测模型，还无法完成准确的预测任务，为此，人们提出了统计学和基于精确性的再训练方法，当发现现存预测模型不再适用于当前数据时，对模型重新训练，获得新的权重参数，建立新的模型。此外，有许多系统借助并行算法的计算优势对时间序列进行预测。　　5. 偏差型知识(Deviation) 　　偏差型知识是指通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别，对差异和极端特例进行描述。所有这些知识都可以在不同的概念层次上被发现，并随着概念层次的提升，从微观到中观、到宏观，满足不同用户不同层次决策的需要。 1.3.2　数据挖掘的功能 　　数据挖掘用于在指定数据挖掘任务中找到模式类型。数据挖掘任务一般可以分两类：描述和预测。描述性挖掘任务刻画数据库中数据的一般特性；预测性挖掘任务在当前数据上进行推测和预测。  　　用户有时不知道他们的数据中什么类型的模式是有趣的，因此数据挖掘系统要能够并行地挖掘多种类型的模式，以适应不同的用户需要或不同的应用。此外，数据挖掘系统应当能够发现各种粒度(即不同的抽象层次)的模式。数据挖掘系统应当允许用户给出提示，指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立，通常每个被发现的模式需要带上一个确定性或“可信性”度量。  　　数据挖掘的功能主要体现在以下六个方面。　　1. 类/概念描述：特征化和区分 　　数据可以与类或概念相关联。一个概念常常是对一个包含大量数据的数据集合总体情况的概述。对含有大量数据的数据集合进行描述性的总结并获得简明、准确的描述，这种描述就称为类/概念描述(Class/Concept Description)。这种描述可以通过下述方法得到：  　　(1) 数据特征化，一般地汇总所研究类(称为目标类(Arget Class))的数据。 　　(2) 数据区分，将目标类与一个或多个比较类(常称为对比类(Ontrasting Class))比较。　　(3) 数据特征化和比较。  　　数据特征化(Data Characterization)是目标类数据的一般特征或特性的汇总。通常，用户指定类的数据通过数据库查询收集。例如，为研究上一年销售增加10%的软件产品的特征，可以通过执行一个SQL查询收集关于这些产品的数据。  　　有许多有效的方法可

您可能关注的文档

文档评论（0）

fangsheke66 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据挖掘原理法及应用第1章绪论.pptVIP