数据挖掘与知识发现(讲稿3---面向属性归纳学习技术).docVIP

下载本文档

28
0
约9.71千字
约 15页
2017-09-01 发布于安徽
举报
版权申诉

数据挖掘与知识发现(讲稿3---面向属性归纳学习技术).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第3章面向属性的归纳学习技术归纳学习旨在从大量的经验数据中归纳抽取出一般的规则和模式。归纳学习是一种非常重要的数据挖掘方法，但由于数据库中的数据量往往很大，影响了归纳效果，需要采取有效措施进行数据约简。面向属性的数据泛化和归纳学习技术是解决这一问题的有效途径。面向属性的归纳学习（Attribute-Oriented Induction, AOI，亦称概念提升) 是一种面向关系数据库查询的、基于属性概化的、联机的数据分析处理技术（OLAP）的知识发现方法。最早于1989年被提出，Jiawei Han等人对此作了比较全面的介绍。其主要思想是：首先使用关系数据库查询收集任务相关的数据；然后通过考察任务相关数据中每个属性的不同值的数量，进行属性概化。生成的结果广义关系可以映射到不同形式，如图表或规则，提供给用户。即通过归纳学习，使得属性域取值的抽象程度提高，从而得到较精练的数据集合，大大提高了规则的学习效率。这种方法可以有多种不同的应用，其中之一是它能够被运用到一个数据分类过程，以简化分类所要处理的事件空间。 3.1 概念层次概念是语义描述的基本单位，也是数据库中各个描述对象的基本特征。概念可以分层，数据集中的数据通常包含原始层上的详细信息。将一个数据集合归纳成高概念层信息的数据挖掘技术，称为概念分层。数据的属性以及概念依据抽象程度不同可构成一个层次结构。如，时间单位：年、季、月、周、日等。概念层次结构通常使用概念树表示。概念树是根据概念外延的包含关系定义的。概念树一般由领域专家提供，与数据库中特定的属性有关，它将各个层次的概念按从一般到特殊的顺序分层排列。在数据挖掘中，概念层次由于能够以层次的形式和偏序的关系组织数据和概念，能够把一组较低级概念映射到与它们相应的较高级概念的次序，以易于理解的高层概念表示数据库中数据的关系，因而在数据处理中往往起着举足轻重的作用。 3.1.1 概念层次的基本概念定义1（概念层次）：一个概念层次H是一个偏序集（h,），其中 h是一个有限的概念集，是h上的一个偏序。在概念树中，树的结点表示概念，树枝表示偏序，并且父结点到子结点的关系称为偏序。最一般的概念是没有具体特性的概念，用any表示；最特殊的概念(叶结点)对应数据库中具体的属性值；而处于概念树层次结构中间的概念是对该属性值归纳过程中产生的更宏观的(更广义的)概念。如，在实际使用中，反映了概念之间的“特殊---一般”关系，可以用树、格或有向无循环图等来表示。如，梨子水果食品。定义2（正则概念层次）概念层次H=（h,）是正则的，如果h中有一个最大元素（最一般的概念），且有集合，，则并且，若中某个概念的最近祖先在中，则中其他概念的最近祖先也都在中。此外，描述概念的普遍化程度的另一个重术语是层次号。概念层次自上而下的层次号依次为。层次号为的概念称为层上的概念。具有相同层次号的概念必定在集合中，困此，可简单地把称作层次。 3.1.2 概念层次的类型概念层次有四种：模式层次、集合分组层次、导出操作层次和基于规则的层次。（1）模式层次模式层次是在模式级上通过定义反映数据库属性之间联系的偏序关系而形成的。如，属性门牌号码、街道、城市、省份和国家形成模式层次为门牌号码街道城市省份国家它表明，沿模式自左向右是泛化，自右向左是特化。因而，无须为每个数据记录指定泛化或特化的路径。对数据挖掘任务而言，需要把模式层次泛化到数据库的有关数据上，从而得到该模式的具体值或实例层次。为此，需要同时存放模式层和实例层上的偏序。（2）集合分组层次这种概念层次是通过定义一组概念（或属性）值的子集之间的关系而形成的，反映了应用领域的语义联系特点。 [例1] Status是某大学数据库中的一个关系，见下表：表1 Student数据库则其集合分组层次如下： {一年级，二年级，三年级，四年级}大学生 {理科硕士，文学硕士，博士}研究生 {大学生，研究生}全部身份 {生物，化学，计算机，…，物理}科学 {文学，音乐，…，绘画}艺术 {科学，艺术}全部专业 {上海市，宝山，…，青浦}上海 {南京，苏州，…，无锡}江苏省 {上海，江苏省，…}中国 {莫斯科，圣彼得堡，…}俄罗斯 {东京，大阪，…}日本 {俄罗斯，日本…}外国 {中国，外国}所有地方 0.0～1.99差 2.0～2.99一般 3.0～3.49良好 3.5