- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章 数据挖掘及其算法概览 数据挖掘算法概览 结构类型:模型和模式 一般可以从很多角度来对数据挖掘所探寻的不同表示进行 分类。一种方法是分析全局模型( Model)和局部模式(Pattern、 Schema)的差异。 模型结构定义为对数据集的全局性总结。它是对整个测量空间 的每一个点作出描述。从几何角度考虑,数据矩阵中的行可以看作 是p维向量中的点。模型是对该空间中的每一个点作出描述。如可 以把一个点分配到一个聚类或者预测出某个其它变量的值。 简单的模型如Y=aX + b,其中X、Y是变量,a、b是模型的参 数,也就是要在数据挖掘过程中确定的值。 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 知识发现的过程-数据准备 数据集成 数据挖掘需要对数据进行集成。将多个数据源中的数据合并 存放在统一的数据存储中。数据集成主要涉及三个方面的问题: 模式集成:从多个异构的数据库、文件、遗留系统中提取并 集成数据,解决语义二义性,统一不同的数据格式,消除冗余, 重复等问题。模式集成涉及实体识别。目前该领域研究比较热, 但问题多难以形成统一的解决方法。目前研究包括元数据、元知 识(Meta data, Meta knowledge)及本体(Ontology)等方法。 数据值冲突检测及处理:表示、比例、单位、编码等不同的 解决方法。例如,货币单位等 冗余:如同一属性多次出现等。在数据仓库和数据挖掘领域, 也许不需要规范化(去规范化)。 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 知识发现的过程-数据挖掘 数据挖掘:确定目标和任务。如数据总结、分类、聚类、关联规则 发现或者序列模式发现等。确定任务后,考虑采用何种算法。同样 的任务可以采用不同的算法来实现。选择算法的考虑因素包括:不 同的数据有不同的特点,因此需要采用与之相关的算法来处理;用 户或实际运行系统的要求,有的用户可能希望获得描述性、易于理 解的描述性知识,有的用户可能希望获得预测准确度高的预测型知 识。 数据挖掘仅仅是整个过程的一个部分,数据挖掘质量的好坏有两个 影响因素。采用的数据挖掘技术的有效性;用于挖掘数据的质量和 数量。数据挖掘过程是一个非平凡的过程,需要不断反馈。可视化 在数据挖掘中扮演重要的角色。 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 知识发现的过程-结果表达于解释 结果解释和评价:数据挖掘阶段发现的模式,经过用户或机器的 评价,可能存在冗余或无关的模式,需要将其剔除。模式也可能 不满足用户的要求,需要重新进行KDD过程。 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 KDD知识发现抽取知识的类型和表示 依赖关系; 分类知识; 描述性知识; 偏差性知识 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 1 依赖关系 若其中一项的数据可以预测另一项的数据,即A--〉B,则 称这两项存在依赖关系。当确定依赖关系不存在时,可以附加 不确定度量: A--〉(0.95)B。这类知识可用于数据库知识的 归一化、查询优化,还可用于最小化决策树、搜索数据特例等 2 分类知识 数据子类的标识知识。子类可由某一现有属性确定,也可由 附加的知识领域知识来定义,KDD系统基于分类知识的发现任务 促进了交互式新型聚类算法的发展,即处理器计算机能力和用户 知识及可视化工具的有机集成。 KDD知识发现抽取知识的类型和表示 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 3 描述性知识 关于类别特征的概括性知识。主要包括两类知识:特征描述 知识和区分性知识。特征描述性知识是指本类数据所共有的;区 分性知识是指本类区别于其他类的特征 4 偏差性知识 关于类别差异的描述。包括:标准类的特例,各类边缘外的 孤立点,时序关系上的单属性值和集合取值的不同,实际观测值 与系统预测值间的显著差别等。 KDD知识发现抽取知识的类型和表示 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 KDD的主要任务 KDD的核心部分是数据模式的抽取,即通过数据挖 掘完成各种模式的抽取。其主要的任务是: 分类知识发现、数据总结、数据聚类、 关联规则发现、序列模式发现、 依赖关系模型发现、异常发现和趋势预测等 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 1 分类知识发现 根据样本数据寻找相应的分类规则。然后根据获得的规则来 确定某一非样本个体或对象是否属于某一特定的组或者类。在这 种分类知识发现中,样本数据
文档评论(0)