- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则元模式——例子 研究AllElectronics的顾客购买习惯,使用如下关联规则: P(X: customer, W) ∧ Q(X, Y) =buys(X, Z) X---customer表的关键字 P,Q---谓词变量 W, Y, Z---对象变量 模板具体化 age(X, “30…39”) ∧ income(X, “40k…49k”)=buys(X, “VCR”) [2.2%, 60%] occupation(x, “student”) ∧ age(X, “20…29”)=buys(X, “computer”) [1.4%, 70%] 背景知识:概念分层 背景知识是关于挖掘领域的知识 概念分层是背景知识的一种,它允许在多个抽象层上发现知识。 概念分层以树形结构的节点集来表示,其中每个节点本身代表一个概念,根节点称为all,而叶节点则对应于维的原始数据值。 概念分层中,自顶向底进行层的标识,即all为0层,向下依次为1,2,3等层 概念分层 ——上卷和下钻 在概念分层中应用上卷操作(概化),使得用户可以使用较高层次概念替代较低层次概念 可以在更有意义,更高、更抽象的层次观察数据,从而使发现的模式更加容易理解。 上卷操作使得数据得到压缩,在这个压缩的数据集上进行挖掘可以减少I/O操作,使得挖掘的效率提高。 概念分层的下钻操作使用较低层概念代替较高层概念,从而使用户能够对过于一般化的数据做更详细分析。 上卷和下钻操作让用户以不同视图观察数据,洞察隐藏的数据联系。 概念分层的自动生成。 在同一个维上,可能根据用户的观点不同,存在多个概念分层。 概念分层的类型 四种常用的概念分层类型 模式分层 E.g., street city province country 集合分组分层 E.g., {20-39} = young, {40-59} = middle_aged 操作导出的分层 Email:abc@cs.zju.edu.cn 基于规则的分层 low_profit_margin (X) = price(X, P1) and cost (X, P2) and (P1 - P2) $50 high_profit_margin (X) = price(X, P1) and cost (X, P2) and (P1 - P2) $250 兴趣度度量 没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。 兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的。 常用的四种兴趣度的客观度量: 简单性 确定性 实用性 新颖性 简单性和确定性 简单性(simplicity) 模式是否容易被人所理解 模式结构的函数(模式的长度、属性的个数、操作符个数)。e.g. 规则长度或者判定树的节点个数。 确定性(certainty) 表示一个模式在多少概率下是有效的。 置信度 (A=B)=(包含A和B的元组值)/(包含A的元组值),e.g. buys(X, “computer)=buys(X, “software”) [30%, 80%] 100%置信度:准确的。 实用性和新颖性 实用性 可以用支持度来进行度量:支持度(A=b) = (包含A和 B的元组数)/(元组总数) e.g. buys(X, “computer)=buys(X, “software”) [30%, 80%] 同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。 新颖性 提供新信息或提高给定模式集性能的模式 通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵) Location(X, “Canada”)=buys(X, “Sony_TV”) [8%, 70%] Location(X, “Vancouver”)=buys(X, “Sony_TV”) [2%, 70%] 发现模式的表示和可视化 以多种形式显示挖掘出来的模式:表、图、判定树、数据立方体等等,以适合不同背景的用户的需要。 使用概念分层,用更有意义,更容易理解的高层概念来替代低层概念;并通过上卷、下钻等操作从不同的抽象级审视所发现的模式。 特定知识类型的表示。 一种数据挖掘查询语言DMQL DMQL的设计目的 支持特别的和交互的数据查询,以便利于灵活和有效的知识发现 提供一种类似于SQL的标准化查询语言 希望达到SQL在关系数据库中的地位 系统开发和演化的基础 方便的信息交互,广泛的技术支持,商业化,广为认可 设计挑战 数据挖掘任务涉及面宽 数据特征、关联规则、分类、演变分析…每种任务都有不同的需求 DMQL的语法 采用与SQL相类似的语法,便于与SQL的集成。 允许在多个抽象层上,由关系数据库和数据仓库进行多类型知识的特殊挖掘
您可能关注的文档
- 典型“陷阱题”50例续篇-2.ppt
- 服装结构与制图_衣领.ppt
- 高考试题研究方法及效果汇报.ppt
- 国际信贷课件.ppt
- 第4章+消费者行为理论.ppt
- 第22次课(第4章习题课).ppt
- 第六章、酒店人力资源管理PPT(庄军).ppt
- 第三章_社会角色.ppt
- 第十一章+市场失灵和微观经济政策.ppt
- 第五章+经典单方程计量经济学模型.ppt
- DB12 046.89-2011 产品单位产量综合电耗计算方法及限额 第89部分:手机 .docx
- DB12 046.88-2011 产品单位产量综合电耗计算方法及限额 第88部分:晶振 .docx
- DB12T 419-2010 无公害农产品 核桃栽培管理技术规范 .docx
- DB12T 417-2010 沙化和荒漠化监测技术规程.docx
- DB12T 449-2011 民用建筑四防门通用技术条件.docx
- DB12 046.100-2011 产品单位产量综合能耗计算方法及限额 第100部分: 果汁饮料 .docx
- DB12T 427-2010 葱姜蒜中205种农药多残留测定方法-GCMS法.docx
- DB12T 421-2010 有机农产品 甘薯有机栽培技术规范.docx
- DB12T 426-2010 蔬菜水果中205种农药多残留测定方法-GCMS法 .docx
- 《老年人身体康复》精品课件——项目6 中国传统康复技术.pptx
最近下载
- 《模拟电子技术基础》模电期末试题集及答案(8套).pdf
- 2023年太原师范学院数据科学与大数据技术专业《操作系统》科目期末试卷A(有答案).docx VIP
- 物联网工程专业生涯发展.pptx VIP
- 2024年04月自然资源部南海局所属事业单位2024年度公开招考61名工作人员笔试参考题库附带答案详解.docx VIP
- 中国移动湖北移动招聘笔试题库2023.pdf
- SENNHEISER森海塞尔话筒剧院EK 3241使用说明书Instruction manual EK 3241.pdf
- 七年级数学《平面直角坐标系》单元教学设计.doc VIP
- 移动公司笔试题目.docx VIP
- 2023-2024学年广东省深圳市龙华区部编版四年级上册期末考试语文试卷【含答案】.pdf
- 业务跟单年度工作总结.pptx VIP
文档评论(0)