- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七章 概念描述:特征化和比较 数据挖掘可以分成两类 描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。 概念描述 对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要给出这种数据一个描述以概括出固有的特性,这种描述性数据挖掘称为概念描述。 概念描述: 特征化:对所选择的数据给出一个简单明了的描述 比较:提供对于两个或以上数据进行比较的结果 数据概化和基于汇总的特征化 数据概化 数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。 主要方法: 数据立方体(OLAP使用的方法) 面向属性的归纳方法 数据概化:数据立方体方法(不使用面向属性的归纳) 执行计算并将结果存储在数据立方体中 优点: 数据概化的一种有效实现 可以计算各种不同的度量值 比如:count(), sum(), average(), max() 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等 缺点 只能处理非数据类型的维和简单聚集数值类型的度量值 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次 概念描述 VS. OLAP 概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。 两者的主要区别: 概念描述 可以处理复杂数据类型的属性及其聚集 一个更加自动化的过程 OLAP 实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型 一个由用户控制的过程 面向属性的归纳 Attribute-oriented induction, AOI (KDD `89 Workshop) 受数据类型和度量类型的约束比较少 面向属性归纳的基本思想: 使用关系数据库查询收集任务相关的数据 通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化 通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作 通过与用户交互,将广义关系以图表或规则等形式,提交给用户 面向属性的归纳 步骤: 数据聚焦:选择和当前分析相关的数据,包括维。 属性移除: 如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作,或者 2)它的较高层概念用其它属性表示。 属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符(比如求和等),则运用该操作符进行概化。 属性概化阈值控制: 可以设一个缺省的或可以指定的阈值,在不同的属性值个数少于该值后则停止进一步概化。 例子:比如地区维度分为省、市、区、街道阈值为40,则大约在地区维度要概化到省一级 概化结果的表示 表格 概化结果的表示 二维交叉表 概化结果的表示 可视化方法 概化结果的表示 量化特征规则 概化关系可以用逻辑规则的形式表示,典型的是概化的元组代表一个规则的析取。 若单个概化元组不能代表工作关系中的所有元组,则规则应当带上量化信息,用满足规则的左部和满足规则右部的元组所占的百分比表示。带有量化信息的逻辑规则称为量化规则。 t_权兴趣度度量:描述规则中每个析取或对应概化关系的每个元组的典型性。 t-权 定义:设待特化的(或由规则描述的)对象类为目标类, qa是一个描述目标类的概化元组。 qa的t_权是来自初始工作关系集合中被qa涵盖的目标类元组的百分比。形式上为: 其中:n是概化关系中目标类元组的个数,q1,…..,qn是概化关系中目标类的元组, qa在q1,…..,qn中。显然,t_权的取值区间为[0.0,1.0]或[0%,100%]。 三、挖掘类比较:区分不同的类 要解决的目标 在实际应用中,对单个类(概念)的描述或特征化并不一定感兴趣,而希望挖掘一种描述,它将一个类(概念)与其它可比较的类(概念)相区分。类区分(比较)挖掘将给出目标类与对比类相区别的描述。 类比较方法和实现 1)数据收集:通过查询处理数据库中相关数据集,将它划分为一个目标类和一个(多个)对比类。 2)维相关分析:选择所需要的维,去掉与概化不相关的维 3)同步概化:目标类和所有对比类概化到同一层次 4)导出比较的表示:结果可以是表、图或规则,表示中一般包括对比的度量(如count%) * * 1 2 3 4 5 概念层 2、例,在下面的初始工作表上做面向属性归纳 姓名 性别 专业 籍贯 出身日期 信用情况 电话 学历 张明 男 计算机 南京 79。01 良 4316111 本 李枚 女 生物 苏州 76。02 优 4315111
您可能关注的文档
- 研究生毕业论文选题、开题报告及论文写作清华大学.ppt
- 第八章项目团队管理.ppt
- 第二章_安全生产工作规定.ppt
- 第三讲自我知觉.ppt
- 第六章消费者权益保护法.ppt
- 金属非金属矿山安全管理06.ppt
- 11仓储的基本知识.ppt
- 医药行业专业英语词汇非常有用.doc
- 4层办公楼毕业设计施工组织设计.doc
- 洋浦招商信息管理平台招标文件.doc
- 福建省南安第一中学2025年高三下学期5月考试历史试题试卷含解析.doc
- 2023年度一级建造师题库试题完整附答案详解.docx
- 2023年度一级建造师题库试题及完整答案详解(网校专用).docx
- 土地投资培训课件.ppt
- 绿色金融产品创新策略:2025年市场拓展与风险控制分析.docx
- 2023年度一级建造师题库试题及参考答案详解【综合题】.docx
- 2023年度一级建造师题库检测试题打印附答案详解(预热题).docx
- 2023年度一级建造师题库试题附答案详解.docx
- 绿色金融产品创新路径在绿色城镇化进程中的应用分析报告.docx
- 2023年度一级建造师题库试题附参考答案详解(B卷).docx
最近下载
- 土地流转解约合同模板8篇.docx VIP
- 学堂在线 科研伦理与学术规范 期末考试答案.docx VIP
- 《GBT 5336-2022汽车车身修理技术条件》最新解读.pptx
- 中国台球协会技能等级考试中式台球考题说明.pdf VIP
- 国开 电大计算机应用基础 终结性考试试题及答案.docx VIP
- GBT3798-2021 汽车大修竣工出厂技术条件.pdf VIP
- 《中国现代文学专题》期末复习指导_综合练习题及答案.doc VIP
- 化学方程式配平万能解法解析.docx VIP
- 风电基础工程清单报价汇总表.pdf VIP
- 2024年曲阜师范大学成教《计算机控制技术》期末考试复习试题.pdf VIP
文档评论(0)