- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘算法概览
第1章 数据挖掘及其算法概览 数据挖掘算法概览 结构类型:模型和模式 一般可以从很多角度来对数据挖掘所探寻的不同表示进行 分类。一种方法是分析全局模型( Model)和局部模式(Pattern、 Schema)的差异。 模型结构定义为对数据集的全局性总结。它是对整个测量空间 的每一个点作出描述。从几何角度考虑,数据矩阵中的行可以看作 是p维向量中的点。模型是对该空间中的每一个点作出描述。如可 以把一个点分配到一个聚类或者预测出某个其它变量的值。 简单的模型如Y=aX + b,其中X、Y是变量,a、b是模型的参 数,也就是要在数据挖掘过程中确定的值。 第1章 数据挖掘及其算法概览 数据挖掘算法概览 结构类型:模型和模式 与模型的全局性不同,模式结构仅对变量变化空间的一个 有限区域作出描述。一个例子是简单概率性结论: 若 Xx1, 则Yy1的概率为p1 。该结构由对变量X和Y的值 的约束组成。并以概率规则的形式将这两个变量联系到一起。当 然上述描述可以用条件概率描述p(Yy1|Xx1)=p1 。 模式描述的结构仅是与数据或一部份数据空间有关,或许仅 有一部分记录具有某种特性。模式就是用来刻画这一部份数据的。 第1章 数据挖掘及其算法概览 数据挖掘算法概览 结构类型:模型和模式 理解数据挖掘中模型和模式的概念 数据挖掘中模型是对一个数据集的高层次、全局性的描述。 它通过一个很大的样本透视总体。模型可以使描述性的-以方便 简洁的方式归纳数据,也可以是推理性的,允许对数据所在的数 据总体或者未来数据作出某些论断。典型的如线形回归模型、马 尔科夫模型等。 数据挖掘中模式是数据的局部特征。一个P维变量空间的局部 “结构”特性。如密度分布函数的最频值。或者回归曲线上的拐点 都是模式的例子。很多情况下,对模式的研究都是由意义的,它 描述了与数据一般行为的背离现象。 第1章 数据挖掘及其算法概览 数据挖掘算法概览 结构类型:模型和模式 理解数据挖掘中模型和模式的概念 以数据压缩来理解模型和模式。假定一个数据发送器T要传 送一幅图像I到接收器R。一般有两种策略:传送图像I的所有像素 的数据;传送图像的压缩版本。数据挖掘在很大程度上对应于后 一种情况。实现压缩的方法可能是把原始数据表示为一个模型, 或者也可以通过模式比标示出数据的异常特征。 当概括数据时很可能会导致某种数据失真。只要在允许的范围 内。例如对一个图像上的每个32×32像素方块中用其均值来代替该 方块,结果会形成分辨率更低的图像。 第1章 数据挖掘及其算法概览 数据挖掘算法概览 数据挖掘与统计分析的比较 数据挖掘是揭示存在于数据里的模式及数据间的关系的学科。 它强调对大量的数据的处理以及数据与知识之间的关系。统计学是 一门关于数据资料的收集、整理、分析和推理的学科。共同的目标 发现数据间隐藏的关系。 差别,只讨论一点,就是处理的数据规模和方法不同。传统的 统计一般是先有一个假设,然后收集数据,去验证假设的正确或错 误。数据挖掘则以处理海量数据、复杂数据为主。 提此问题的主要目的:统计是以一个的数学位基础的,为目前 数据挖掘研究尚缺乏严密的数学基础。要想在数据挖掘领域出成绩, 必须具备数学功底(特别针对搞数据库出生的)。有很多数据挖掘专 家来源于统计领域。(数据库领域、人工智能领域、统计领域等) 第1章 数据挖掘及其算法概览 数据挖掘算法概览 多数情况下,数据挖掘算法可以从五个方面进行考虑。也 就是任务、模型、评分函数、搜索方法和数据管理技术。或者 称它们是算法组件。 关于算法组件 例如 关联规则的典型数据挖掘算法组件: 1 任务:描述变量之间的关联关系; 2 结构:用概率表示的“关联规则”模式; 3 评分函数:可信度与支持度的阈值; 4 搜索方式:系统搜索,带剪枝的广度优先; 5 数据管理技术:多重线性扫描。 第1章 数据挖掘及其算法概览 数据挖掘算法概览 关于算法组件-数据挖掘任务 该算法所针对的数据挖掘任务(如可视化、分类、聚类、 回归等)。通常不同的任务需要不同的算法。 具体的任务类型见上节,包括: 分类知识发现; 聚类知识发现; 关联规则知识发现; 数据总结; 时序和序列模式知识发现; 离群点检测。 第1章 数据挖掘及其算法概览 数据挖掘算法概览 关于算法组件-模型和模式 用于拟合数据的模型或者模式的结构(函数形式) 例如线性回归模型,层次聚类模型等
原创力文档


文档评论(0)