4、数据挖掘原语、语言和系统结构.ppt

下载文档

1
0
约1.05万字
约 35页
2019-08-10 发布于广东
举报
版权申诉
保障服务

4、数据挖掘原语、语言和系统结构.ppt

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关联规则元模式——例子研究AllElectronics的顾客购买习惯，使用如下关联规则： P(X: customer, W) ∧ Q(X, Y) =buys(X, Z) X---customer表的关键字 P,Q---谓词变量 W, Y, Z---对象变量模板具体化 age(X, “30…39”) ∧ income(X, “40k…49k”)=buys(X, “VCR”) [2.2%, 60%] occupation(x, “student”) ∧ age(X, “20…29”)=buys(X, “computer”) [1.4%, 70%] 背景知识：概念分层背景知识是关于挖掘领域的知识概念分层是背景知识的一种，它允许在多个抽象层上发现知识。概念分层以树形结构的节点集来表示，其中每个节点本身代表一个概念，根节点称为all，而叶节点则对应于维的原始数据值。概念分层中，自顶向底进行层的标识，即all为0层，向下依次为1，2，3等层概念分层 ——上卷和下钻在概念分层中应用上卷操作（概化），使得用户可以使用较高层次概念替代较低层次概念可以在更有意义，更高、更抽象的层次观察数据，从而使发现的模式更加容易理解。上卷操作使得数据得到压缩，在这个压缩的数据集上进行挖掘可以减少I/O操作，使得挖掘的效率提高。概念分层的下钻操作使用较低层概念代替较高层概念，从而使用户能够对过于一般化的数据做更详细分析。上卷和下钻操作让用户以不同视图观察数据，洞察隐藏的数据联系。概念分层的自动生成。在同一个维上，可能根据用户的观点不同，存在多个概念分层。概念分层的类型四种常用的概念分层类型模式分层 E.g., street city province country 集合分组分层 E.g., {20-39} = young, {40-59} = middle_aged 操作导出的分层 Email：abc@cs.zju.edu.cn 基于规则的分层 low_profit_margin (X) = price(X, P1) and cost (X, P2) and (P1 - P2) $50 high_profit_margin (X) = price(X, P1) and cost (X, P2) and (P1 - P2) $250 兴趣度度量没有兴趣度度量，挖掘出来的有用模式，很可能会给淹没在用户不感兴趣的模式中。兴趣度的客观度量方法：根据模式的结构和统计，用一个临界值来判断某个模式是不是用户感兴趣的。常用的四种兴趣度的客观度量：简单性确定性实用性新颖性简单性和确定性简单性(simplicity) 模式是否容易被人所理解模式结构的函数（模式的长度、属性的个数、操作符个数）。e.g. 规则长度或者判定树的节点个数。确定性(certainty) 表示一个模式在多少概率下是有效的。置信度 (A=B)=(包含A和B的元组值)/(包含A的元组值)，e.g. buys(X, “computer)=buys(X, “software”) [30%, 80%] 100%置信度：准确的。实用性和新颖性实用性可以用支持度来进行度量：支持度(A=b) = (包含A和 B的元组数)/(元组总数) e.g. buys(X, “computer)=buys(X, “software”) [30%, 80%] 同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。新颖性提供新信息或提高给定模式集性能的模式通过删除冗余模式来检测新颖性（一个模式已经为另外一个模式所蕴涵） Location(X, “Canada”)=buys(X, “Sony_TV”) [8%, 70%] Location(X, “Vancouver”)=buys(X, “Sony_TV”) [2%, 70%] 发现模式的表示和可视化以多种形式显示挖掘出来的模式：表、图、判定树、数据立方体等等，以适合不同背景的用户的需要。使用概念分层，用更有意义，更容易理解的高层概念来替代低层概念；并通过上卷、下钻等操作从不同的抽象级审视所发现的模式。特定知识类型的表示。一种数据挖掘查询语言DMQL DMQL的设计目的支持特别的和交互的数据查询，以便利于灵活和有效的知识发现提供一种类似于SQL的标准化查询语言希望达到SQL在关系数据库中的地位系统开发和演化的基础方便的信息交互，广泛的技术支持，商业化，广为认可设计挑战数据挖掘任务涉及面宽数据特征、关联规则、分类、演变分析…每种任务都有不同的需求 DMQL的语法采用与SQL相类似的语法，便于与SQL的集成。允许在多个抽象层上，由关系数据库和数据仓库进行多类型知识的特殊挖掘