- 1、本文档共86页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章 数据挖掘概览 数据挖掘算法概览 结构类型:模型和模式 理解数据挖掘中模型和模式的概念 数据挖掘中模型是对一个数据集的高层次、全局性的描述。 它通过一个很大的样本透视总体。模型可以使描述性的-以方便 简洁的方式归纳数据,也可以是推理性的,允许对数据所在的数 据总体或者未来数据作出某些论断。典型的如线形回归模型、马 尔科夫模型等。 数据挖掘中模式是数据的局部特征。一个P维变量空间的局部 “结构”特性。如密度分布函数的最频值。或者回归曲线上的拐点 都是模式的例子。很多情况下,对模式的研究都是由意义的,它 描述了与数据一般行为的背离现象。 第9章 数据挖掘概览 数据挖掘算法概览 结构类型:模型和模式 理解数据挖掘中模型和模式的概念 以数据压缩来理解模型和模式。假定一个数据发送器T要传 送一幅图像I到接收器R。一般有两种策略:传送图像I的所有像素 的数据;传送图像的压缩版本。数据挖掘在很大程度上对应于后 一种情况。实现压缩的方法可能是把原始数据表示为一个模型, 或者也可以通过模式比标示出数据的异常特征。 当概括数据时很可能会导致某种数据失真。只要在允许的范围 内。例如对一个图像上的每个32×32像素方块中用其均值来代替该 方块,结果会形成分辨率更低的图像。 第9章 数据挖掘概览 数据挖掘算法概览 数据挖掘与统计分析的比较 数据挖掘是揭示存在于数据里的模式及数据间的关系的学科。 它强调对大量的数据的处理以及数据与知识之间的关系。统计学是 一门关于数据资料的收集、整理、分析和推理的学科。共同的目标 发现数据间隐藏的关系。 差别,只讨论一点,就是处理的数据规模和方法不同。传统的 统计一般是先有一个假设,然后收集数据,去验证假设的正确或错 误。数据挖掘则以处理海量数据、复杂数据为主。 提此问题的主要目的:统计是以一个的数学位基础的,为目前 数据挖掘研究尚缺乏严密的数学基础。要想在数据挖掘领域出成绩, 必须具备数学功底(特别针对搞数据库出生的)。有很多数据挖掘专 家来源于统计领域。(数据库领域、人工智能领域、统计领域等) 第9章 数据挖掘概览 数据挖掘算法概览 多数情况下,数据挖掘算法可以从五个方面进行考虑。也 就是任务、模型、评分函数、搜索方法和数据管理技术。或者 称它们是算法组件。 关于算法组件 例如 关联规则的典型数据挖掘算法组件: 1 任务:描述变量之间的关联关系; 2 结构:用概率表示的“关联规则”模式; 3 评分函数:可信度与支持度的阈值; 4 搜索方式:系统搜索,带剪枝的广度优先; 5 数据管理技术:多重线性扫描。 第9章 数据挖掘概览 数据挖掘算法概览 关于算法组件-数据挖掘任务 该算法所针对的数据挖掘任务(如可视化、分类、聚类、 回归等)。通常不同的任务需要不同的算法。 具体的任务类型见上节,包括: 分类知识发现; 聚类知识发现; 关联规则知识发现; 数据总结; 时序和序列模式知识发现; 离群点检测。 第9章 数据挖掘概览 数据挖掘算法概览 关于算法组件-模型和模式 用于拟合数据的模型或者模式的结构(函数形式) 例如线性回归模型,层次聚类模型等。这个结构定义了我们可以 近似或学习的边界。在该边界范围内,数据引导我们得到特定的 模型或者模式。 第9章 数据挖掘概览 数据挖掘算法概览 关于算法组件-模型和模式 模型是对现实世界中过程的抽象描述。模型是一种顶层的描述 概括并描述了一个庞大数据集的主要特征。 例如Y=aX+b是一个非常简单的模型。在此事例中θ={a,b}是 该模型的参数集。给定模型的现实或者结构,后续的工作就是通 过估计为其选择适当的参数,也就是说选择一个合适的评分函数 来衡量模型与数据的拟合程度。 第9章 数据挖掘概览 数据挖掘算法概览 关于算法组件-模型和模式 用于预测的模型结构 在预测模型中,一个变量被表达成其它变量的函数,这样可 以从给定的其它变量(称为解释或者预报变量)的值预测响应变 量的值。通常用Y表示预测模型的响应变量,用x1,……,xp表示p个 预报变量。以此建立一个预测模型,例如可以通过该方式预测前 例中纳税人职业和学历与申报收入的模型。一般可以将预测模型 表示为: ? = f(x1,……,xp, θ),其中?是该模型的预测。 θ代表该模型 结构的参数。 如果Y是数量值变量,则从p维空间向量X到Y的映射被称为 回归(Regression)。 如果Y是范畴型变
文档评论(0)